Apache Nutch:如何重新尝试暂时性错误(而不是其他URL)?
Nutch有时会对某些URL出现SocketTimeout或ConnectionRejected异常。如何让Nutch只重试这些URL?如果我重新运行爬网命令,它会告诉我没有什么可以重新运行的。这是可以理解的,因为db.fetch.interval.default设置为30天。我不想改变这一点,因为这甚至会影响成功的页面。我需要的是一种只重新爬网失败爬网的方法 有办法做到这一点吗Apache Nutch:如何重新尝试暂时性错误(而不是其他URL)?,apache,web-crawler,screen-scraping,nutch,Apache,Web Crawler,Screen Scraping,Nutch,Nutch有时会对某些URL出现SocketTimeout或ConnectionRejected异常。如何让Nutch只重试这些URL?如果我重新运行爬网命令,它会告诉我没有什么可以重新运行的。这是可以理解的,因为db.fetch.interval.default设置为30天。我不想改变这一点,因为这甚至会影响成功的页面。我需要的是一种只重新爬网失败爬网的方法 有办法做到这一点吗 稍后添加:我使用的是Nutch 1.10如果获取时出现临时问题,默认情况下,Nutch应该为您重试三次获取。在此之后
稍后添加:我使用的是Nutch 1.10如果获取时出现临时问题,默认情况下,Nutch应该为您重试三次获取。在此之后,该页被标记为已消失,Nutch将不会在maxFetchInterval中再次尝试获取该页。
您可以通过更改nutch-default.xml中的db.fetch.retry.max属性来增加重试次数 你用的是什么版本的Nutch?