apache nutch在生成阶段花费的时间太长
我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的,在获取作业之前,生成作业是在nutch中执行的。在生成作业中,Nutch将选择topN URL进行抓取,该URL在CrawlDB中的所有URL中得分最高。因此,爬虫程序在抓取之前花费的时间太长的原因是,与系统容量相比,您设置的topN太高,并且爬虫数据库中的URL数量太多(选择过程将花费时间) 希望这有帮助apache nutch在生成阶段花费的时间太长,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的,在获取作业之前,生成作业是在nutch中执行的。在生成作业中,Nutch将选择topN URL进行抓取,该URL在CrawlDB中的所有URL中得分最高。因此,爬虫程序在抓取之前花费的时间太长的原因是,与系统容量相比,您设置的topN太高,并且爬虫数据库中的URL数量太多(选择过程将花费时间) 希望这有帮助 Le Quoc Do您可以使用-d
Le Quoc Do您可以使用-depth和-topN参数限制url的爬网数量如果我选择topN一个较小的数字,有什么缺点吗?如果您设置topN,您在每个爬网循环中获得的url数量也很小。有没有办法做到无限制的topN,因为我不知道数据库中有多少url。或者本地语言搜索引擎的爬行配置应该是什么,但不要在开始(生成)时花费太多时间。我相信如果不指定topN,则没有设置限制。