Web crawler 将发现的URL循环回以获取它们的正确方法是什么？_Web Crawler_Apache Storm_Stormcrawler

Web crawler 将发现的URL循环回以获取它们的正确方法是什么？

web-crawler apache-storm

Web crawler 将发现的URL循环回以获取它们的正确方法是什么？,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我从默认拓扑开始，但想做一个递归爬网。所以我必须修改flux文件，将发现的URL循环回抓取程序，我不确定哪种方法是最好的有没有一个很好的例子来说明如何做到这一点？也许和Elasticsearch一起工作问候,， Chris运行递归爬网时，需要存储有关URL的信息。反馈给回执器是不够的，因为它不会考虑重复项，也不会给您任何调度控制权外部模块中有许多可用选项，Elasticsearch就是其中之一，您也可以使用SOLR或SQL后端有关如何将SC与ES一起使用的教程，请参见有一个Status

我从默认拓扑开始，但想做一个递归爬网。所以我必须修改flux文件，将发现的URL循环回抓取程序，我不确定哪种方法是最好的

有没有一个很好的例子来说明如何做到这一点？也许和Elasticsearch一起工作

问候,，

Chris

运行递归爬网时，需要存储有关URL的信息。反馈给回执器是不够的，因为它不会考虑重复项，也不会给您任何调度控制权

外部模块中有许多可用选项，Elasticsearch就是其中之一，您也可以使用SOLR或SQL后端

有关如何将SC与ES一起使用的教程，请参见

有一个StatusUpdater的实现，它将发现的URL反馈回MemorySpout，但这仅对在本地模式下进行测试/调试有用