Solr 倾倒坚果_Solr_Nutch - Fatal编程技术网

Solr 倾倒坚果

solr

Solr 倾倒坚果,solr,nutch,Solr,Nutch,我怎样才能得到状态为3（db_gone）的所有URL的Nutch crawldb的转储。我使用的Nutch版本是1.4 我查看了维基，但不清楚如何做到这一点，Nutch 1.4中的CrawlDbReader不会根据文档的状态生成crawldb转储。在Nutch的1.5及更高版本中，您可以在crawldb读取期间指定文档的状态，readdb将生成具有指定状态的文档转储 [root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dum

我怎样才能得到状态为3（db_gone）的所有URL的Nutch crawldb的转储。我使用的Nutch版本是1.4

我查看了维基，但不清楚如何做到这一点，Nutch 1.4中的CrawlDbReader不会根据文档的状态生成crawldb转储。在Nutch的1.5及更高版本中，您可以在crawldb读取期间指定文档的状态，readdb将生成具有指定状态的文档转储

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

[root@srchengnnutch]#bin/nutch readdb-dump-status db#u gone

如果您想在Nutch 1.4中执行相同的操作，则必须修改

org.apache.Nutch.crawl.CrawlDbReader

类