Java 使用Nutch检索页面内容

Java 使用Nutch检索页面内容,java,web-crawler,nutch,Java,Web Crawler,Nutch,我有一个非常大的种子列表要抓取(只有那些种子是不需要任何深化)。如何使用Nutch检索: 的HTML 文本内容 (优选地)输出链路 种子页?(没有任何索引和集成到任何其他平台,如Solr) 谢谢嗯,有很多问题需要解决。以下是问题及其解决方案: 将爬网限制为种子列表:启用评分深度插件,并将其配置为仅允许1级爬网 获取文本内容:默认情况下,Nutch会这样做 获取HTML原始数据:Nutch 1.9不可能做到这一点。您需要从其主干存储库下载Nutch并构建它,因为HTML内容计划在Nutch的下一个

我有一个非常大的种子列表要抓取(只有那些种子是不需要任何深化)。如何使用Nutch检索:

  • 的HTML
  • 文本内容
  • (优选地)输出链路
  • 种子页?(没有任何索引和集成到任何其他平台,如Solr)


    谢谢

    嗯,有很多问题需要解决。以下是问题及其解决方案:

  • 将爬网限制为种子列表:启用评分深度插件,并将其配置为仅允许1级爬网
  • 获取文本内容:默认情况下,Nutch会这样做
  • 获取HTML原始数据:Nutch 1.9不可能做到这一点。您需要从其主干存储库下载Nutch并构建它,因为HTML内容计划在Nutch的下一个版本(1.10)中发布
  • 提取大纲链接:您可以这样做,但必须编写一个新的索引过滤器来索引大纲链接
  • 在没有Solr的情况下执行上述所有操作:您可以这样做。但是,您必须编写一个新的索引器,以您想要的任何格式存储提取数据

  • 事实上,我需要将它们简单地写入一个文件,而不是索引它们。你有这方面的代码吗?你的爬网有多大?也许你可以摆脱刮痧。否则,您需要执行上述操作。大约有数百万页。我需要创建一个数据集,而不是索引它们。我想使用Nutch以便在下一个任务中熟悉它。我必须使用Nutch来学习如何在下一个项目中使用它。此外,我只想将数据写入文件。有任何示例代码吗?如果是这样,那么您应该使用Nutch并执行上述操作。您可以查看源代码以了解如何编写插件。Nutch wiki还提供了如何做到这一点的详细信息。