Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/apache-flex/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Solr Nutch未将文档移动到状态DB_GONE_Solr_Nutch_Web Crawler - Fatal编程技术网

Solr Nutch未将文档移动到状态DB_GONE

Solr Nutch未将文档移动到状态DB_GONE,solr,nutch,web-crawler,Solr,Nutch,Web Crawler,根据我对Nutch的理解,当Nutch重新爬网并试图获取一个不再存在的文档时,它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时,它会生成404错误,但当我执行以下操作时: readdb folder/crawldb - stats 它将文件显示为db_unfetched,而不是db_gone。这造成了很大的问题,因为我无法保持我的Solr索引最新 如果您想检查我的Solr或Nutch设置,请按照我的博客指南进行操作,并且应该完全相同:检查Nutch配置文件中的d

根据我对Nutch的理解,当Nutch重新爬网并试图获取一个不再存在的文档时,它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新爬网时,它会生成404错误,但当我执行以下操作时:

readdb folder/crawldb - stats
它将文件显示为db_unfetched,而不是db_gone。这造成了很大的问题,因为我无法保持我的Solr索引最新


如果您想检查我的Solr或Nutch设置,请按照我的博客指南进行操作,并且应该完全相同:

检查Nutch配置文件中的db.fetch.retry.max属性。默认情况下,它设置为3。只有在最大重试次数之后,nutch才会将文档标记为“db_gone”。 i、 e.默认情况下,在第三次重试后,nutch将标记文档db\u gone,然后该状态将保持db\u unfetched