Solr 倾倒坚果

Solr 倾倒坚果,solr,nutch,Solr,Nutch,我怎样才能得到状态为3(db_gone)的所有URL的Nutch crawldb的转储。我使用的Nutch版本是1.4 我查看了维基,但不清楚如何做到这一点,Nutch 1.4中的CrawlDbReader不会根据文档的状态生成crawldb转储。在Nutch的1.5及更高版本中,您可以在crawldb读取期间指定文档的状态,readdb将生成具有指定状态的文档转储 [root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dum

我怎样才能得到状态为3(db_gone)的所有URL的Nutch crawldb的转储。我使用的Nutch版本是1.4


我查看了维基,但不清楚如何做到这一点,Nutch 1.4中的CrawlDbReader不会根据文档的状态生成crawldb转储。在Nutch的1.5及更高版本中,您可以在crawldb读取期间指定文档的状态,readdb将生成具有指定状态的文档转储

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone
[root@srchengnnutch]#bin/nutch readdb-dump-status db#u gone
如果您想在Nutch 1.4中执行相同的操作,则必须修改
org.apache.Nutch.crawl.CrawlDbReader