Nutch：在一定深度内抓取每个URL_Nutch

Nutch：在一定深度内抓取每个URL

Nutch：在一定深度内抓取每个URL,nutch,Nutch,我的问题是从某个种子列表开始抓取每个页面和每个文档我已安装nutch并使用以下命令运行它： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 我希望nutch进程能够抓取大约100个url，但它说只找到了11个文档。所以我试着用这个命令运行nutch： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4 它

我的问题是从某个种子列表开始抓取每个页面和每个文档

我已安装nutch并使用以下命令运行它：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

我希望nutch进程能够抓取大约100个url，但它说只找到了11个文档。所以我试着用这个命令运行nutch：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

它找到了23份文件

我正在运行从测试种子开始的进程

为什么纳奇有这种行为？如何设置nutch从种子开始在某个深度抓取每个url？

topN设置每个深度要获取的url数量。在第一个示例中，深度为3。Depth1是种子url。在depth2和depth3中，将获取5个（topN值）URL。5*2（depth2和depth3）+1（种子url即depth1）=11。要获取更多URL，可以增加topN。如果您不想限制，则可以跳过topN参数。

谢谢，我会尝试。我也以这种方式考虑了11个文档，但第二个测试不符合这种解释。不管怎样，只要删除它，我就可以解决所有问题。假设两个测试都按照所示顺序使用相同的crawdb运行，我希望第二个测试发现12个新文档，并将它们与它已经爬网的11个文档一起编入索引-深度3-topN 4不会加快查找超过12份文件（如以下答案所述）