Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网_Apache Storm_Stormcrawler

Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网

apache-storm

Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网,apache-storm,stormcrawler,Apache Storm,Stormcrawler,我将基于Storm Crawler项目开发一个工件。我想从卡夫卡主题中获取种子URL。Kakfa中的每条消息都有两个重要字段：我们可能有不同爬网ID的重复seedURL。例如，在卡夫卡中，我可能有以下两条信息： , 我希望风暴爬虫尝试独立于其他种子处理每个种子URL。我们正在使用Solr跟踪每个Url的状态。对于此要求，需要更改默认拓扑的哪一部分（即SolrSpout）

我将基于Storm Crawler项目开发一个工件。我想从卡夫卡主题中获取种子URL。Kakfa中的每条消息都有两个重要字段：我们可能有不同爬网ID的重复seedURL。例如，在卡夫卡中，我可能有以下两条信息： , 我希望风暴爬虫尝试独立于其他种子处理每个种子URL。我们正在使用Solr跟踪每个Url的状态。对于此要求，需要更改默认拓扑的哪一部分（即SolrSpout）