Solr Nutch爬行命令
对于Nutch2.2.1,我知道有两个爬网命令—bin/Nutch(逐步)、bin/crawl(一体机) 我知道如何为Solr Nutch爬行命令,solr,web-crawler,nutch,Solr,Web Crawler,Nutch,对于Nutch2.2.1,我知道有两个爬网命令—bin/Nutch(逐步)、bin/crawl(一体机) 我知道如何为bin/crawl命令指定爬网ID。类似地,如何为bin/nutch命令指定爬网ID 我询问的原因是,我使用多功能爬网命令“bin/crawl”指定爬网ID运行了一个大型爬网作业,在Solr中为第9次爬网迭代编制索引时,该作业中断。现在,我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“bin/nutch sol
bin/crawl
命令指定爬网ID。类似地,如何为bin/nutch
命令指定爬网ID
我询问的原因是,我使用多功能爬网命令“bin/crawl”
指定爬网ID运行了一个大型爬网作业,在Solr中为第9次爬网迭代编制索引时,该作业中断。现在,我只想在中断的第9次迭代中运行一个步骤“bin/nutch solrindex”命令来完成solr索引。我应该如何在“bin/nutch solrindex
”命令中指定爬行ID?语法是什么
我将所有爬网数据存储在HBase表“webpage_test”中您可以运行bin/nutch solrindex并通过参数中的爬网和分段文件夹
Nutch将为所有文档编制索引,但不会创建副本,因为它将使用ID字段确定它们是否已插入。您可以运行bin/Nutch solrindex并在参数中传递爬网和分段文件夹 Nutch将为所有文档编制索引,但不会创建副本,因为它将使用ID字段来确定它们是否已插入