apache nutch在生成阶段花费的时间太长_Apache_Web Crawler_Nutch

apache nutch在生成阶段花费的时间太长

apache web-crawler

apache nutch在生成阶段花费的时间太长,apache,web-crawler,nutch,Apache,Web Crawler,Nutch,我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的，在获取作业之前，生成作业是在nutch中执行的。在生成作业中，Nutch将选择topN URL进行抓取，该URL在CrawlDB中的所有URL中得分最高。因此，爬虫程序在抓取之前花费的时间太长的原因是，与系统容量相比，您设置的topN太高，并且爬虫数据库中的URL数量太多（选择过程将花费时间）希望这有帮助 Le Quoc Do您可以使用-d

我的URL/种子文件中有两个URL。我的爬虫在开始抓取之前花费了太多的时间。我已经爬网的数据大约是220 GB。任何人都知道为什么nutch的行为是这样的，在获取作业之前，生成作业是在nutch中执行的。在生成作业中，Nutch将选择topN URL进行抓取，该URL在CrawlDB中的所有URL中得分最高。因此，爬虫程序在抓取之前花费的时间太长的原因是，与系统容量相比，您设置的topN太高，并且爬虫数据库中的URL数量太多（选择过程将花费时间）

希望这有帮助

Le Quoc Do

您可以使用-depth和-topN参数限制url的爬网数量如果我选择topN一个较小的数字，有什么缺点吗？如果您设置topN，您在每个爬网循环中获得的url数量也很小。有没有办法做到无限制的topN，因为我不知道数据库中有多少url。或者本地语言搜索引擎的爬行配置应该是什么，但不要在开始（生成）时花费太多时间。我相信如果不指定topN，则没有设置限制。