Java 使用Nutch检索页面内容
我有一个非常大的种子列表要抓取(只有那些种子是不需要任何深化)。如何使用Nutch检索:Java 使用Nutch检索页面内容,java,web-crawler,nutch,Java,Web Crawler,Nutch,我有一个非常大的种子列表要抓取(只有那些种子是不需要任何深化)。如何使用Nutch检索: 的HTML 文本内容 (优选地)输出链路 种子页?(没有任何索引和集成到任何其他平台,如Solr) 谢谢嗯,有很多问题需要解决。以下是问题及其解决方案: 将爬网限制为种子列表:启用评分深度插件,并将其配置为仅允许1级爬网 获取文本内容:默认情况下,Nutch会这样做 获取HTML原始数据:Nutch 1.9不可能做到这一点。您需要从其主干存储库下载Nutch并构建它,因为HTML内容计划在Nutch的下一个
谢谢嗯,有很多问题需要解决。以下是问题及其解决方案:
事实上,我需要将它们简单地写入一个文件,而不是索引它们。你有这方面的代码吗?你的爬网有多大?也许你可以摆脱刮痧。否则,您需要执行上述操作。大约有数百万页。我需要创建一个数据集,而不是索引它们。我想使用Nutch以便在下一个任务中熟悉它。我必须使用Nutch来学习如何在下一个项目中使用它。此外,我只想将数据写入文件。有任何示例代码吗?如果是这样,那么您应该使用Nutch并执行上述操作。您可以查看源代码以了解如何编写插件。Nutch wiki还提供了如何做到这一点的详细信息。