Solr Nutch爬行命令_Solr_Web Crawler_Nutch

Solr Nutch爬行命令

solr web-crawler

Solr Nutch爬行命令,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,对于Nutch2.2.1，我知道有两个爬网命令—bin/Nutch（逐步）、bin/crawl（一体机）我知道如何为bin/crawl命令指定爬网ID。类似地，如何为bin/nutch命令指定爬网ID 我询问的原因是，我使用多功能爬网命令“bin/crawl”指定爬网ID运行了一个大型爬网作业，在Solr中为第9次爬网迭代编制索引时，该作业中断。现在，我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“bin/nutch sol

对于Nutch2.2.1，我知道有两个爬网命令—bin/Nutch（逐步）、bin/crawl（一体机）

我知道如何为

bin/crawl

命令指定爬网ID。类似地，如何为

bin/nutch

命令指定爬网ID

我询问的原因是，我使用

多功能爬网命令“bin/crawl”

指定爬网ID运行了一个大型爬网作业，在Solr中为第9次爬网迭代编制索引时，该作业中断。现在，我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“

bin/nutch solrindex

”命令中指定爬行ID？语法是什么

我将所有爬网数据存储在HBase表“webpage_test”中

您可以运行bin/nutch solrindex并通过参数中的爬网和分段文件夹

Nutch将为所有文档编制索引，但不会创建副本，因为它将使用ID字段确定它们是否已插入。

您可以运行bin/Nutch solrindex并在参数中传递爬网和分段文件夹

Nutch将为所有文档编制索引，但不会创建副本，因为它将使用ID字段来确定它们是否已插入