Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/three.js/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr Nutch-1.6版中是否仍有深度和topN_Solr_Nutch - Fatal编程技术网

Solr Nutch-1.6版中是否仍有深度和topN

Solr Nutch-1.6版中是否仍有深度和topN,solr,nutch,Solr,Nutch,我想知道nutch 1.6中的参数-depth&-topN是否仍然可用。 我甚至不知道这些参数与/bin/crawl bash脚本中的limit参数有什么区别?有关说明:- depthdepth表示应该爬网的根页面的链接深度。 e、 你可以在根页面扫描中有链接,而根页面扫描中又会有链接,等等。 这可能导致链接的指数扫描。depth参数限制从根页面扫描的链接的层次结构 topNN确定将在每一级别直至深度检索的最大页数。 e、 在根页面上可能有100个链接。topN将限制每个级别上要扫描的链接数

我想知道nutch 1.6中的参数
-depth
&
-topN
是否仍然可用。
我甚至不知道这些参数与/bin/crawl bash脚本中的
limit
参数有什么区别?

有关说明:-

  • depth
    depth表示应该爬网的根页面的链接深度。
    e、 你可以在根页面扫描中有链接,而根页面扫描中又会有链接,等等。 这可能导致链接的指数扫描。depth参数限制从根页面扫描的链接的层次结构

  • topN
    N确定将在每一级别直至深度检索的最大页数。
    e、 在根页面上可能有100个链接。topN将限制每个级别上要扫描的链接数

所以基本上应该扫描的最大链接数是根页面*深度*topN


此外,在文档中没有看到它们已被删除或弃用。因此,我认为它们是可用的

我理解这两个参数的含义。但是我找不到在
bin/crawl.sh
中添加它们的位置。您需要将它们作为参数传递[-depth I][-topN N N]我认为这已经被弃用,取而代之的是:
/crawl url/seed.txthttp://localhost:8983/solr/ 2
我知道我必须使用传统方法
/nutch crawl url-dir-depth 4-topN 20
,就像你提到的。它运行得很好。