Apache Nutch:如何重新尝试暂时性错误(而不是其他URL)?

Apache Nutch:如何重新尝试暂时性错误(而不是其他URL)?,apache,web-crawler,screen-scraping,nutch,Apache,Web Crawler,Screen Scraping,Nutch,Nutch有时会对某些URL出现SocketTimeout或ConnectionRejected异常。如何让Nutch只重试这些URL?如果我重新运行爬网命令,它会告诉我没有什么可以重新运行的。这是可以理解的,因为db.fetch.interval.default设置为30天。我不想改变这一点,因为这甚至会影响成功的页面。我需要的是一种只重新爬网失败爬网的方法 有办法做到这一点吗 稍后添加:我使用的是Nutch 1.10如果获取时出现临时问题,默认情况下,Nutch应该为您重试三次获取。在此之后

Nutch有时会对某些URL出现SocketTimeout或ConnectionRejected异常。如何让Nutch只重试这些URL?如果我重新运行爬网命令,它会告诉我没有什么可以重新运行的。这是可以理解的,因为db.fetch.interval.default设置为30天。我不想改变这一点,因为这甚至会影响成功的页面。我需要的是一种只重新爬网失败爬网的方法

有办法做到这一点吗


稍后添加:我使用的是Nutch 1.10

如果获取时出现临时问题,默认情况下,Nutch应该为您重试三次获取。在此之后,该页被标记为已消失,Nutch将不会在maxFetchInterval中再次尝试获取该页。


您可以通过更改nutch-default.xml中的db.fetch.retry.max属性来增加重试次数

你用的是什么版本的Nutch?