Java 从使用ApacheNutch1.4进行爬网和解析后获得的HTML文档中获取特定标记

Java 从使用ApacheNutch1.4进行爬网和解析后获得的HTML文档中获取特定标记,java,apache,meta-tags,nutch,Java,Apache,Meta Tags,Nutch,我使用了Nutch1.4并爬过了一个网站。 我成功地爬网了网站,所有的页面都被分成了几个部分。 我将所有段合并为一个段,然后使用readseg命令获得所有已爬网页面的文本版本。 现在我需要找出页面的URL和存储在该页面中的元数据。 我不知道该使用哪个命令,或者我需要做些不同的事情 在谷歌上做了很多努力,有人说你必须为它编写一个单独的插件。有人能告诉我吗 非常感谢:):)最后,我能做到了。分享,以防其他人需要。 您可以使用此处提供的索引元标记插件: 它将解决这个问题 干杯:)爬一爬。之后,进入终

我使用了Nutch1.4并爬过了一个网站。 我成功地爬网了网站,所有的页面都被分成了几个部分。 我将所有段合并为一个段,然后使用readseg命令获得所有已爬网页面的文本版本。 现在我需要找出页面的URL和存储在该页面中的元数据。 我不知道该使用哪个命令,或者我需要做些不同的事情

在谷歌上做了很多努力,有人说你必须为它编写一个单独的插件。有人能告诉我吗


非常感谢:):)

最后,我能做到了。分享,以防其他人需要。 您可以使用此处提供的索引元标记插件:

它将解决这个问题
干杯:)

爬一爬。之后,进入终端

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

如果它运行,您将拥有一个包含头信息和内容的文件。之后,您可以通过字符串操作轻松修改文件并获取所需的任何信息。

我想获取所有已爬网html文档的url对应的元数据。请帮忙!!