Web crawler 将发现的URL循环回以获取它们的正确方法是什么?

Web crawler 将发现的URL循环回以获取它们的正确方法是什么?,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我从默认拓扑开始,但想做一个递归爬网。所以我必须修改flux文件,将发现的URL循环回抓取程序,我不确定哪种方法是最好的 有没有一个很好的例子来说明如何做到这一点?也许和Elasticsearch一起工作 问候,, Chris运行递归爬网时,需要存储有关URL的信息。反馈给回执器是不够的,因为它不会考虑重复项,也不会给您任何调度控制权 外部模块中有许多可用选项,Elasticsearch就是其中之一,您也可以使用SOLR或SQL后端 有关如何将SC与ES一起使用的教程,请参见 有一个Status

我从默认拓扑开始,但想做一个递归爬网。所以我必须修改flux文件,将发现的URL循环回抓取程序,我不确定哪种方法是最好的

有没有一个很好的例子来说明如何做到这一点?也许和Elasticsearch一起工作

问候,,
Chris

运行递归爬网时,需要存储有关URL的信息。反馈给回执器是不够的,因为它不会考虑重复项,也不会给您任何调度控制权

外部模块中有许多可用选项,Elasticsearch就是其中之一,您也可以使用SOLR或SQL后端

有关如何将SC与ES一起使用的教程,请参见

有一个StatusUpdater的实现,它将发现的URL反馈回MemorySpout,但这仅对在本地模式下进行测试/调试有用