Java 使用Nutch检索页面内容_Java_Web Crawler_Nutch

Java 使用Nutch检索页面内容

java web-crawler

Java 使用Nutch检索页面内容,java,web-crawler,nutch,Java,Web Crawler,Nutch,我有一个非常大的种子列表要抓取（只有那些种子是不需要任何深化）。如何使用Nutch检索：的HTML 文本内容（优选地）输出链路种子页？（没有任何索引和集成到任何其他平台，如Solr）谢谢嗯，有很多问题需要解决。以下是问题及其解决方案：将爬网限制为种子列表：启用评分深度插件，并将其配置为仅允许1级爬网获取文本内容：默认情况下，Nutch会这样做获取HTML原始数据：Nutch 1.9不可能做到这一点。您需要从其主干存储库下载Nutch并构建它，因为HTML内容计划在Nutch的下一个

我有一个非常大的种子列表要抓取（只有那些种子是不需要任何深化）。如何使用Nutch检索：

的HTML

文本内容

（优选地）输出链路

种子页？（没有任何索引和集成到任何其他平台，如Solr）

谢谢

嗯，有很多问题需要解决。以下是问题及其解决方案：

将爬网限制为种子列表：启用评分深度插件，并将其配置为仅允许1级爬网

获取文本内容：默认情况下，Nutch会这样做

获取HTML原始数据：Nutch 1.9不可能做到这一点。您需要从其主干存储库下载Nutch并构建它，因为HTML内容计划在Nutch的下一个版本（1.10）中发布

提取大纲链接：您可以这样做，但必须编写一个新的索引过滤器来索引大纲链接

在没有Solr的情况下执行上述所有操作：您可以这样做。但是，您必须编写一个新的索引器，以您想要的任何格式存储提取数据

事实上，我需要将它们简单地写入一个文件，而不是索引它们。你有这方面的代码吗？你的爬网有多大？也许你可以摆脱刮痧。否则，您需要执行上述操作。大约有数百万页。我需要创建一个数据集，而不是索引它们。我想使用Nutch以便在下一个任务中熟悉它。我必须使用Nutch来学习如何在下一个项目中使用它。此外，我只想将数据写入文件。有任何示例代码吗？如果是这样，那么您应该使用Nutch并执行上述操作。您可以查看源代码以了解如何编写插件。Nutch wiki还提供了如何做到这一点的详细信息。