Java 使用Nutch从网页中提取文本_Java_Web Scraping_Nutch

Java 使用Nutch从网页中提取文本

java web-scraping

Java 使用Nutch从网页中提取文本,java,web-scraping,nutch,Java,Web Scraping,Nutch,我是Nutch的新手，所以请容忍我的这一点我的目标是简单地从网页中提取一些内容，并能够检索结果信息。例如，假设我在一个电子商务站点上爬网了一些页面，并打算存储产品信息（例如，名称、类别、价格等）再次重申，假设我的seed.txt文件包含www.site.com，我初始化了爬网。假设我的HTMLPasseFilters设置为正确解析来自www.site.com的产品信息，并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品

我是Nutch的新手，所以请容忍我的这一点

我的目标是简单地从网页中提取一些内容，并能够检索结果信息。例如，假设我在一个电子商务站点上爬网了一些页面，并打算存储产品信息（例如，名称、类别、价格等）

再次重申，假设我的seed.txt文件包含www.site.com，我初始化了爬网。假设我的HTMLPasseFilters设置为正确解析来自www.site.com的产品信息，并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品A，而www.site.com/link包含ID为2的产品B，我希望我能够使用某种预定义的实用程序来单独提供这些结果：


A 1
B 2

目前，我发现自己正在修改org.apache.nutch.segment.SegmentReader以及org.apache.nutch.parse.ParseResult和org.apache.nutch.metadata.metadata的toString（）方法，以隔离提取的结果，这让我觉得我遗漏了一些东西。。。我不想看到大纲链接、recno、URL、解析元数据、回放或任何其他爬网元数据；我只想要HTML过滤的结果，如上所述

简言之，我真的在努力理解如何使用nutch来抓取一组站点，并只提供我提取的内容

如果您需要任何澄清，请随时告诉我。

您使用的是哪个版本的Nutch？