Solr Nutch未将文档移动到状态DB_GONE_Solr_Nutch_Web Crawler

Solr Nutch未将文档移动到状态DB_GONE

solr web-crawler

Solr Nutch未将文档移动到状态DB_GONE,solr,nutch,web-crawler,Solr,Nutch,Web Crawler,根据我对Nutch的理解，当Nutch重新爬网并试图获取一个不再存在的文档时，它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时，它会生成404错误，但当我执行以下操作时： readdb folder/crawldb - stats 它将文件显示为db_unfetched，而不是db_gone。这造成了很大的问题，因为我无法保持我的Solr索引最新如果您想检查我的Solr或Nutch设置，请按照我的博客指南进行操作，并且应该完全相同：检查Nutch配置文件中的d

根据我对Nutch的理解，当Nutch重新爬网并试图获取一个不再存在的文档时，它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时，它会生成404错误，但当我执行以下操作时：

readdb folder/crawldb - stats

它将文件显示为db_unfetched，而不是db_gone。这造成了很大的问题，因为我无法保持我的Solr索引最新

如果您想检查我的Solr或Nutch设置，请按照我的博客指南进行操作，并且应该完全相同：

检查Nutch配置文件中的db.fetch.retry.max属性。默认情况下，它设置为3。只有在最大重试次数之后，nutch才会将文档标记为“db_gone”。 i、 e.默认情况下，在第三次重试后，nutch将标记文档db\u gone，然后该状态将保持db\u unfetched