Lucene Nutch';什么是插件系统?

Lucene Nutch';什么是插件系统?,lucene,nutch,Lucene,Nutch,我不熟悉Nutch,但我知道Nutch使用Lucene进行索引,Lucene只理解文本格式 Nutch有许多插件,用于对特定格式的文档进行爬网 我的疑问是:Nutch插件系统究竟是如何实现的 我看到了团队wiki页面的 我想要一些信息,比如Nutch是如何与Lucene一起工作的。Lucene所做的就是提供一种方法,将“”添加到结构化索引中,并针对该索引执行查询 Nutch crawler(我想这就是你所说的Nutch)只是提供了一种简单的方法来获取非结构化数据(即网站)并将其推送到索引中。就像

我不熟悉Nutch,但我知道Nutch使用Lucene进行索引,Lucene只理解文本格式

Nutch有许多插件,用于对特定格式的文档进行爬网

我的疑问是:Nutch插件系统究竟是如何实现的

我看到了团队wiki页面的


我想要一些信息,比如Nutch是如何与Lucene一起工作的。

Lucene所做的就是提供一种方法,将“”添加到结构化索引中,并针对该索引执行查询

Nutch crawler(我想这就是你所说的Nutch)只是提供了一种简单的方法来获取非结构化数据(即网站)并将其推送到索引中。就像您可以使用Solr轻松地将xml数据推送到lucene索引中一样

Nutch插件只是提供了一个钩子,你可以把客户的逻辑。例如,“”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上,它所做的就是使用一个可以读取PDF文档()的API来提取文本(这与“解析html”类似,因为html有很多非文本的部分,例如所有html标记)


因此,关于您对二进制格式的关注,解析并不困难,只是很难得到有用的东西。例如,我们可以编写一个“解析图像”插件,该插件可以提取有关图像的大量信息(即名称、格式、大小),只是解析图片中的“脸”或“狗”很困难。

Lucene所做的就是提供一种方法,将“”添加到结构化索引中,并针对该索引执行查询

Nutch crawler(我想这就是你所说的Nutch)只是提供了一种简单的方法来获取非结构化数据(即网站)并将其推送到索引中。就像您可以使用Solr轻松地将xml数据推送到lucene索引中一样

Nutch插件只是提供了一个钩子,你可以把客户的逻辑。例如,“”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上,它所做的就是使用一个可以读取PDF文档()的API来提取文本(这与“解析html”类似,因为html有很多非文本的部分,例如所有html标记)

因此,关于您对二进制格式的关注,解析并不困难,只是很难得到有用的东西。例如,我们可以编写一个“解析图像”插件,该插件可以提取有关图像的大量信息(即名称、格式、大小),只是解析图片中的“脸”或“狗”很困难