Web crawler 使用风暴爬虫爬行_Web Crawler_Apache Storm_Stormcrawler

Web crawler 使用风暴爬虫爬行

web-crawler apache-storm

Web crawler 使用风暴爬虫爬行,web-crawler,apache-storm,stormcrawler,Web Crawler,Apache Storm,Stormcrawler,我们正在尝试实现Storm Crawler来抓取数据。我们已经能够从url中找到子链接，但我们希望从这些子链接中获取内容。我没能找到多少资源来指导我如何获得它？在这方面，任何有用的链接/网站都会有所帮助。谢谢。，还有各种各样的应该是有用的如果子链接被获取和解析（您可以在日志中进行检查），那么内容将可用于索引或存储，例如WARC。有一种方法可以将内容转储到控制台，这可以作为一个起点，或者有一些资源可以在Elasticsearch或SOLR中为文档编制索引。也可用于存储页面内容。您好Julien，

我们正在尝试实现Storm Crawler来抓取数据。我们已经能够从url中找到子链接，但我们希望从这些子链接中获取内容。我没能找到多少资源来指导我如何获得它？在这方面，任何有用的链接/网站都会有所帮助。谢谢。

，还有各种各样的应该是有用的

如果子链接被获取和解析（您可以在日志中进行检查），那么内容将可用于索引或存储，例如WARC。有一种方法可以将内容转储到控制台，这可以作为一个起点，或者有一些资源可以在Elasticsearch或SOLR中为文档编制索引。也可用于存储页面内容。

您好Julien，按照指示，我已将Warc模块页面中提供的代码段添加到我的CrawlTopology.java文件中，但在运行mvn clean package时，我收到以下错误：找不到符号符号：class FileNameFormat位置：class crawler.CrawlTopology以及许多其他类似的行。我是否必须向pom.xmlHi添加一些依赖项。您应该将WARC模块添加到dependencies com.digitalpebble.stormcrawler storm crawler WARC${storm crawler.version}可能暂时保持简单并使用虚拟索引器，它已经在核心模块中，不需要其他依赖项。另外，使用原型生成的代码作为起点，这将为您节省大量的麻烦。