Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网

Apache storm 在Storm Crawler中使用不同的crawlRequestId对完全相同的URL进行单独爬网,apache-storm,stormcrawler,Apache Storm,Stormcrawler,我将基于Storm Crawler项目开发一个工件。我想从卡夫卡主题中获取种子URL。Kakfa中的每条消息都有两个重要字段: 我们可能有不同爬网ID的重复seedURL。例如,在卡夫卡中,我可能有以下两条信息: , 我希望风暴爬虫尝试独立于其他种子处理每个种子URL。我们正在使用Solr跟踪每个Url的状态。对于此要求,需要更改默认拓扑的哪一部分(即SolrSpout)

我将基于Storm Crawler项目开发一个工件。我想从卡夫卡主题中获取种子URL。Kakfa中的每条消息都有两个重要字段: 我们可能有不同爬网ID的重复seedURL。例如,在卡夫卡中,我可能有以下两条信息: , 我希望风暴爬虫尝试独立于其他种子处理每个种子URL。我们正在使用Solr跟踪每个Url的状态。对于此要求,需要更改默认拓扑的哪一部分(即SolrSpout)