Web crawler 在Storm Crawler中对特定基本URL的所有子URL进行爬网的完成事件

Web crawler 在Storm Crawler中对特定基本URL的所有子URL进行爬网的完成事件,web-crawler,stormcrawler,Web Crawler,Stormcrawler,我目前正在工作的风暴爬虫为基础的项目。我需要在完成该基本URL的所有子URL的爬网事件之后进行一些处理。例如,我想更改当该域的所有已发现URL成功爬网或出现错误时的状态。如何找到每个基本URL的完成事件?不是现成的,不是。您必须自己实现一种机制来检查给定密钥是否还有未蚀刻的URL。我在java中实现了一个计划程序作业,用于计算每个基本URL的已发现URL数。如果计数为零,那么我将为该基本URL执行完成事件。这是一种真正的方法吗?

我目前正在工作的风暴爬虫为基础的项目。我需要在完成该基本URL的所有子URL的爬网事件之后进行一些处理。例如,我想更改当该域的所有已发现URL成功爬网或出现错误时的状态。如何找到每个基本URL的完成事件?

不是现成的,不是。您必须自己实现一种机制来检查给定密钥是否还有未蚀刻的URL。

我在java中实现了一个计划程序作业,用于计算每个基本URL的已发现URL数。如果计数为零,那么我将为该基本URL执行完成事件。这是一种真正的方法吗?