Web crawler 使用风暴爬虫爬行

Web crawler 使用风暴爬虫爬行,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我们正在尝试实现Storm Crawler来抓取数据。我们已经能够从url中找到子链接,但我们希望从这些子链接中获取内容。我没能找到多少资源来指导我如何获得它?在这方面,任何有用的链接/网站都会有所帮助。谢谢。,还有各种各样的应该是有用的 如果子链接被获取和解析(您可以在日志中进行检查),那么内容将可用于索引或存储,例如WARC。有一种方法可以将内容转储到控制台,这可以作为一个起点,或者有一些资源可以在Elasticsearch或SOLR中为文档编制索引。也可用于存储页面内容。您好Julien,

我们正在尝试实现Storm Crawler来抓取数据。我们已经能够从url中找到子链接,但我们希望从这些子链接中获取内容。我没能找到多少资源来指导我如何获得它?在这方面,任何有用的链接/网站都会有所帮助。谢谢。

,还有各种各样的应该是有用的


如果子链接被获取和解析(您可以在日志中进行检查),那么内容将可用于索引或存储,例如WARC。有一种方法可以将内容转储到控制台,这可以作为一个起点,或者有一些资源可以在Elasticsearch或SOLR中为文档编制索引。也可用于存储页面内容。

您好Julien,按照指示,我已将Warc模块页面中提供的代码段添加到我的CrawlTopology.java文件中,但在运行mvn clean package时,我收到以下错误:找不到符号符号:class FileNameFormat位置:class crawler.CrawlTopology以及许多其他类似的行。我是否必须向pom.xmlHi添加一些依赖项。您应该将WARC模块添加到dependencies com.digitalpebble.stormcrawler storm crawler WARC${storm crawler.version}可能暂时保持简单并使用虚拟索引器,它已经在核心模块中,不需要其他依赖项。另外,使用原型生成的代码作为起点,这将为您节省大量的麻烦。