Solr 5.0和Nutch 1.10

Solr 5.0和Nutch 1.10,solr,nutch,Solr,Nutch,我正在windows server 2008 R2上使用Solr 5.0、Nutch 1.10和cygwin。我发出的命令如下: bin/crawl-D url/bin/url爬网/2 据我所知,2是爬行的轮数。当我执行这个命令并读取crawldb时,我只收到127个url,这比预期的要少得多。而且它不会在更深的深度爬行。当我发出此命令将数据传递给Solr时: bin/nutch solrindex爬网/crawldb-linkdb爬网/linkdb爬网/segments/* 然后执行搜索,我总

我正在windows server 2008 R2上使用Solr 5.0、Nutch 1.10和cygwin。我发出的命令如下:

bin/crawl-D url/bin/url爬网/2

据我所知,2是爬行的轮数。当我执行这个命令并读取crawldb时,我只收到127个url,这比预期的要少得多。而且它不会在更深的深度爬行。当我发出此命令将数据传递给Solr时:

bin/nutch solrindex爬网/crawldb-linkdb爬网/linkdb爬网/segments/*


然后执行搜索,我总共只得到20个url。有人能帮忙吗。我需要做一个更深的爬行。

你可以增加轮数,这将获取更多的URL。您可以在/logs文件夹中的hadoop.log文件中看到每轮获取的URL数量

你可以参考这个

用法:爬网[-i |--index][D“key=value”] -i |--索引将结果爬网到配置的索引器中 -D传递给Nutch调用的Java属性 要在其中查找种子文件的种子目录 爬网目录,其中保存爬网/链接/分段目录 Num Rounds运行此爬网的轮数 示例:bin/crawl-i-dsolr.server.url=url/TestCrawl/2

 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2