Java 使用Nutch从网页中提取文本

Java 使用Nutch从网页中提取文本,java,web-scraping,nutch,Java,Web Scraping,Nutch,我是Nutch的新手,所以请容忍我的这一点 我的目标是简单地从网页中提取一些内容,并能够检索结果信息。例如,假设我在一个电子商务站点上爬网了一些页面,并打算存储产品信息(例如,名称、类别、价格等) 再次重申,假设我的seed.txt文件包含www.site.com,我初始化了爬网。假设我的HTMLPasseFilters设置为正确解析来自www.site.com的产品信息,并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品

我是Nutch的新手,所以请容忍我的这一点

我的目标是简单地从网页中提取一些内容,并能够检索结果信息。例如,假设我在一个电子商务站点上爬网了一些页面,并打算存储产品信息(例如,名称、类别、价格等)

再次重申,假设我的seed.txt文件包含www.site.com,我初始化了爬网。假设我的HTMLPasseFilters设置为正确解析来自www.site.com的产品信息,并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品A,而www.site.com/link包含ID为2的产品B,我希望我能够使用某种预定义的实用程序来单独提供这些结果:


A 1

B 2

目前,我发现自己正在修改org.apache.nutch.segment.SegmentReader以及org.apache.nutch.parse.ParseResult和org.apache.nutch.metadata.metadata的toString()方法,以隔离提取的结果,这让我觉得我遗漏了一些东西。。。我不想看到大纲链接、recno、URL、解析元数据、回放或任何其他爬网元数据;我只想要HTML过滤的结果,如上所述

简言之,我真的在努力理解如何使用nutch来抓取一组站点,并只提供我提取的内容


如果您需要任何澄清,请随时告诉我。

您使用的是哪个版本的Nutch?