Apache storm 解析使用域名获取网页的基本URL

Apache storm 解析使用域名获取网页的基本URL,apache-storm,stormcrawler,Apache Storm,Stormcrawler,我目前正在工作的风暴爬虫为基础的项目。客户向我们提供了如下域名列表: example.com org 示例2.net 但是没有HTTP/HTTPS协议,Storm Crawler无法读取它们。如果我们添加他们的协议,有时会重定向到另一个URL地址。例如,重定向到并需要在新的深度再次对其进行爬网。但是,我们希望在第一个深度到达网站主页。我怎样才能在暴风爬虫中做到这一点

我目前正在工作的风暴爬虫为基础的项目。客户向我们提供了如下域名列表:

example.com
org
示例2.net

但是没有HTTP/HTTPS协议,Storm Crawler无法读取它们。如果我们添加他们的协议,有时会重定向到另一个URL地址。例如,重定向到并需要在新的深度再次对其进行爬网。但是,我们希望在第一个深度到达网站主页。我怎样才能在暴风爬虫中做到这一点