Lucene 如何阅读Nutch索引中的内容?

Lucene 如何阅读Nutch索引中的内容?,lucene,nutch,Lucene,Nutch,我可以使用Nutch对网页进行抓取和索引,但我不知道如何读取索引并从中提取数据 谁能给我介绍一些阅读索引的有用工具吗 我想添加一个中文分析器和一个IndexFilter插件,所以我想阅读索引来验证我的插件。此外,我还想对使用Java爬网的数据进行一些处理。用于浏览nutch索引。dump index选项可以为整个索引创建xml文件。如果你必须通过代码来完成,那么你需要学习lucene 要读取已爬网的内容,请使用。您可以使用提供的读取命令,如 bin/nutch readseg xxx 阅读内容

我可以使用Nutch对网页进行抓取和索引,但我不知道如何读取索引并从中提取数据

谁能给我介绍一些阅读索引的有用工具吗

我想添加一个中文分析器和一个
IndexFilter
插件,所以我想阅读索引来验证我的插件。此外,我还想对使用Java爬网的数据进行一些处理。

用于浏览nutch索引。dump index选项可以为整个索引创建xml文件。如果你必须通过代码来完成,那么你需要学习lucene


要读取已爬网的内容,请使用。

您可以使用提供的读取命令,如

bin/nutch readseg xxx
阅读内容


希望对您有所帮助。

你好,约翰,很高兴与您交流。我在个人资料页面找不到你的电子邮件。(事实上,我是新来的)。请发邮件给我(lilintao1989@gmail.com). 我期待着你的电子邮件<最好的。