Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/apache/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
apache nutch在生成阶段花费的时间太长_Apache_Web Crawler_Nutch - Fatal编程技术网

apache nutch在生成阶段花费的时间太长

apache nutch在生成阶段花费的时间太长,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的,在获取作业之前,生成作业是在nutch中执行的。在生成作业中,Nutch将选择topN URL进行抓取,该URL在CrawlDB中的所有URL中得分最高。因此,爬虫程序在抓取之前花费的时间太长的原因是,与系统容量相比,您设置的topN太高,并且爬虫数据库中的URL数量太多(选择过程将花费时间) 希望这有帮助 Le Quoc Do您可以使用-d

我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的,在获取作业之前,生成作业是在nutch中执行的。在生成作业中,Nutch将选择topN URL进行抓取,该URL在CrawlDB中的所有URL中得分最高。因此,爬虫程序在抓取之前花费的时间太长的原因是,与系统容量相比,您设置的topN太高,并且爬虫数据库中的URL数量太多(选择过程将花费时间)

希望这有帮助


Le Quoc Do

您可以使用-depth和-topN参数限制url的爬网数量如果我选择topN一个较小的数字,有什么缺点吗?如果您设置topN,您在每个爬网循环中获得的url数量也很小。有没有办法做到无限制的topN,因为我不知道数据库中有多少url。或者本地语言搜索引擎的爬行配置应该是什么,但不要在开始(生成)时花费太多时间。我相信如果不指定topN,则没有设置限制。