Solr 5.0和Nutch 1.10_Solr_Nutch - Fatal编程技术网

Solr 5.0和Nutch 1.10

solr

Solr 5.0和Nutch 1.10,solr,nutch,Solr,Nutch,我正在windows server 2008 R2上使用Solr 5.0、Nutch 1.10和cygwin。我发出的命令如下： bin/crawl-D url/bin/url爬网/2 据我所知，2是爬行的轮数。当我执行这个命令并读取crawldb时，我只收到127个url，这比预期的要少得多。而且它不会在更深的深度爬行。当我发出此命令将数据传递给Solr时： bin/nutch solrindex爬网/crawldb-linkdb爬网/linkdb爬网/segments/* 然后执行搜索，我总

我正在windows server 2008 R2上使用Solr 5.0、Nutch 1.10和cygwin。我发出的命令如下：

bin/crawl-D url/bin/url爬网/2

据我所知，2是爬行的轮数。当我执行这个命令并读取crawldb时，我只收到127个url，这比预期的要少得多。而且它不会在更深的深度爬行。当我发出此命令将数据传递给Solr时：

bin/nutch solrindex爬网/crawldb-linkdb爬网/linkdb爬网/segments/*

然后执行搜索，我总共只得到20个url。有人能帮忙吗。我需要做一个更深的爬行。

你可以增加轮数，这将获取更多的URL。您可以在/logs文件夹中的hadoop.log文件中看到每轮获取的URL数量

你可以参考这个

用法：爬网[-i |--index][D“key=value”] -i |--索引将结果爬网到配置的索引器中 -D传递给Nutch调用的Java属性要在其中查找种子文件的种子目录爬网目录，其中保存爬网/链接/分段目录 Num Rounds运行此爬网的轮数示例：bin/crawl-i-dsolr.server.url=url/TestCrawl/2

 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2