Solr Nutch-1.6版中是否仍有深度和topN
我想知道nutch 1.6中的参数Solr Nutch-1.6版中是否仍有深度和topN,solr,nutch,Solr,Nutch,我想知道nutch 1.6中的参数-depth&-topN是否仍然可用。 我甚至不知道这些参数与/bin/crawl bash脚本中的limit参数有什么区别?有关说明:- depthdepth表示应该爬网的根页面的链接深度。 e、 你可以在根页面扫描中有链接,而根页面扫描中又会有链接,等等。 这可能导致链接的指数扫描。depth参数限制从根页面扫描的链接的层次结构 topNN确定将在每一级别直至深度检索的最大页数。 e、 在根页面上可能有100个链接。topN将限制每个级别上要扫描的链接数
-depth
&-topN
是否仍然可用。我甚至不知道这些参数与/bin/crawl bash脚本中的
limit
参数有什么区别?有关说明:-
depth表示应该爬网的根页面的链接深度。depth
e、 你可以在根页面扫描中有链接,而根页面扫描中又会有链接,等等。 这可能导致链接的指数扫描。depth参数限制从根页面扫描的链接的层次结构
N确定将在每一级别直至深度检索的最大页数。topN
e、 在根页面上可能有100个链接。topN将限制每个级别上要扫描的链接数
此外,在文档中没有看到它们已被删除或弃用。因此,我认为它们是可用的 我理解这两个参数的含义。但是我找不到在
bin/crawl.sh
中添加它们的位置。您需要将它们作为参数传递[-depth I][-topN N N]我认为这已经被弃用,取而代之的是:/crawl url/seed.txthttp://localhost:8983/solr/ 2
我知道我必须使用传统方法/nutch crawl url-dir-depth 4-topN 20
,就像你提到的。它运行得很好。