Nutch:在一定深度内抓取每个URL

Nutch:在一定深度内抓取每个URL,nutch,Nutch,我的问题是从某个种子列表开始抓取每个页面和每个文档 我已安装nutch并使用以下命令运行它: bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 我希望nutch进程能够抓取大约100个url,但它说只找到了11个文档。所以我试着用这个命令运行nutch: bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4 它

我的问题是从某个种子列表开始抓取每个页面和每个文档

我已安装nutch并使用以下命令运行它:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
我希望nutch进程能够抓取大约100个url,但它说只找到了11个文档。所以我试着用这个命令运行nutch:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4
它找到了23份文件

我正在运行从测试种子开始的进程


为什么纳奇有这种行为?如何设置nutch从种子开始在某个深度抓取每个url?

topN设置每个深度要获取的url数量。在第一个示例中,深度为3。Depth1是种子url。在depth2和depth3中,将获取5个(topN值)URL。5*2(depth2和depth3)+1(种子url即depth1)=11。要获取更多URL,可以增加topN。如果您不想限制,则可以跳过topN参数。

谢谢,我会尝试。我也以这种方式考虑了11个文档,但第二个测试不符合这种解释。不管怎样,只要删除它,我就可以解决所有问题。假设两个测试都按照所示顺序使用相同的crawdb运行,我希望第二个测试发现12个新文档,并将它们与它已经爬网的11个文档一起编入索引-深度3-topN 4不会加快查找超过12份文件(如以下答案所述)