Java 从使用ApacheNutch1.4进行爬网和解析后获得的HTML文档中获取特定标记_Java_Apache_Meta Tags_Nutch

Java 从使用ApacheNutch1.4进行爬网和解析后获得的HTML文档中获取特定标记

java apache

Java 从使用ApacheNutch1.4进行爬网和解析后获得的HTML文档中获取特定标记,java,apache,meta-tags,nutch,Java,Apache,Meta Tags,Nutch,我使用了Nutch1.4并爬过了一个网站。我成功地爬网了网站，所有的页面都被分成了几个部分。我将所有段合并为一个段，然后使用readseg命令获得所有已爬网页面的文本版本。现在我需要找出页面的URL和存储在该页面中的元数据。我不知道该使用哪个命令，或者我需要做些不同的事情在谷歌上做了很多努力，有人说你必须为它编写一个单独的插件。有人能告诉我吗非常感谢：）：）最后，我能做到了。分享，以防其他人需要。您可以使用此处提供的索引元标记插件：它将解决这个问题干杯：）爬一爬。之后，进入终

我使用了Nutch1.4并爬过了一个网站。我成功地爬网了网站，所有的页面都被分成了几个部分。我将所有段合并为一个段，然后使用readseg命令获得所有已爬网页面的文本版本。现在我需要找出页面的URL和存储在该页面中的元数据。我不知道该使用哪个命令，或者我需要做些不同的事情

在谷歌上做了很多努力，有人说你必须为它编写一个单独的插件。有人能告诉我吗

非常感谢：）：）

最后，我能做到了。分享，以防其他人需要。您可以使用此处提供的索引元标记插件：

它将解决这个问题

干杯：）

爬一爬。之后，进入终端

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

如果它运行，您将拥有一个包含头信息和内容的文件。之后，您可以通过字符串操作轻松修改文件并获取所需的任何信息。

我想获取所有已爬网html文档的url对应的元数据。请帮忙！！