Solr Nutch未将文档移动到状态DB_GONE
根据我对Nutch的理解,当Nutch重新爬网并试图获取一个不再存在的文档时,它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时,它会生成404错误,但当我执行以下操作时:Solr Nutch未将文档移动到状态DB_GONE,solr,nutch,web-crawler,Solr,Nutch,Web Crawler,根据我对Nutch的理解,当Nutch重新爬网并试图获取一个不再存在的文档时,它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时,它会生成404错误,但当我执行以下操作时: readdb folder/crawldb - stats 它将文件显示为db_unfetched,而不是db_gone。这造成了很大的问题,因为我无法保持我的Solr索引最新 如果您想检查我的Solr或Nutch设置,请按照我的博客指南进行操作,并且应该完全相同:检查Nutch配置文件中的d
readdb folder/crawldb - stats
它将文件显示为db_unfetched,而不是db_gone。这造成了很大的问题,因为我无法保持我的Solr索引最新
如果您想检查我的Solr或Nutch设置,请按照我的博客指南进行操作,并且应该完全相同:检查Nutch配置文件中的db.fetch.retry.max属性。默认情况下,它设置为3。只有在最大重试次数之后,nutch才会将文档标记为“db_gone”。 i、 e.默认情况下,在第三次重试后,nutch将标记文档db\u gone,然后该状态将保持db\u unfetched