Solr Nutch爬行命令

Solr Nutch爬行命令,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,对于Nutch2.2.1,我知道有两个爬网命令—bin/Nutch(逐步)、bin/crawl(一体机) 我知道如何为bin/crawl命令指定爬网ID。类似地,如何为bin/nutch命令指定爬网ID 我询问的原因是,我使用多功能爬网命令“bin/crawl”指定爬网ID运行了一个大型爬网作业,在Solr中为第9次爬网迭代编制索引时,该作业中断。现在,我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“bin/nutch sol

对于Nutch2.2.1,我知道有两个爬网命令—bin/Nutch(逐步)、bin/crawl(一体机)

我知道如何为
bin/crawl
命令指定爬网ID。类似地,如何为
bin/nutch
命令指定爬网ID

我询问的原因是,我使用
多功能爬网命令“bin/crawl”
指定爬网ID运行了一个大型爬网作业,在Solr中为第9次爬网迭代编制索引时,该作业中断。现在,我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“
bin/nutch solrindex
”命令中指定爬行ID?语法是什么


我将所有爬网数据存储在HBase表“webpage_test”中

您可以运行bin/nutch solrindex并通过参数中的爬网和分段文件夹


Nutch将为所有文档编制索引,但不会创建副本,因为它将使用ID字段确定它们是否已插入。

您可以运行bin/Nutch solrindex并在参数中传递爬网和分段文件夹

Nutch将为所有文档编制索引,但不会创建副本,因为它将使用ID字段来确定它们是否已插入