Web crawler 发生Fetch_错误时自动删除已获取的记录

Web crawler 发生Fetch_错误时自动删除已获取的记录,web-crawler,stormcrawler,Web Crawler,Stormcrawler,使用Storm Crawler 1.13,在一个网站上成功运行了Crawler,其中一个页面在网站上被删除,根据Crawler conf下次重新访问时,状态索引更新为FETCH_ERROR,用于丢失的url,当我检入主索引时,该url的记录仍然存在。如何在出现FETCH_错误时自动删除该记录 经过多次连续尝试(由FETCH.ERROR.count设置),FETCH_错误状态将转换为错误。一旦它这样做了,一个元组将在上发送,如果您连接了一个DeletionBolt,那么URL将从Elasticse

使用Storm Crawler 1.13,在一个网站上成功运行了Crawler,其中一个页面在网站上被删除,根据Crawler conf下次重新访问时,状态索引更新为FETCH_ERROR,用于丢失的url,当我检入主索引时,该url的记录仍然存在。如何在出现FETCH_错误时自动删除该记录

经过多次连续尝试(由FETCH.ERROR.count设置),FETCH_错误状态将转换为错误。一旦它这样做了,一个元组将在上发送,如果您连接了一个DeletionBolt,那么URL将从Elasticsearch的内容索引中删除。但它仍将保留在状态索引中,并根据错误调度重新访问或不访问