Web crawler 发生Fetch_错误时自动删除已获取的记录_Web Crawler_Stormcrawler

Web crawler 发生Fetch_错误时自动删除已获取的记录

web-crawler

Web crawler 发生Fetch_错误时自动删除已获取的记录,web-crawler,stormcrawler,Web Crawler,Stormcrawler,使用Storm Crawler 1.13，在一个网站上成功运行了Crawler，其中一个页面在网站上被删除，根据Crawler conf下次重新访问时，状态索引更新为FETCH_ERROR，用于丢失的url，当我检入主索引时，该url的记录仍然存在。如何在出现FETCH_错误时自动删除该记录经过多次连续尝试（由FETCH.ERROR.count设置），FETCH_错误状态将转换为错误。一旦它这样做了，一个元组将在上发送，如果您连接了一个DeletionBolt，那么URL将从Elasticse

使用Storm Crawler 1.13，在一个网站上成功运行了Crawler，其中一个页面在网站上被删除，根据Crawler conf下次重新访问时，状态索引更新为FETCH_ERROR，用于丢失的url，当我检入主索引时，该url的记录仍然存在。如何在出现FETCH_错误时自动删除该记录

经过多次连续尝试（由FETCH.ERROR.count设置），FETCH_错误状态将转换为错误。一旦它这样做了，一个元组将在上发送，如果您连接了一个DeletionBolt，那么URL将从Elasticsearch的内容索引中删除。但它仍将保留在状态索引中，并根据错误调度重新访问或不访问