Lucene Nutch'；什么是插件系统？_Lucene_Nutch

Lucene Nutch'；什么是插件系统？

lucene

Lucene Nutch'；什么是插件系统？,lucene,nutch,Lucene,Nutch,我不熟悉Nutch，但我知道Nutch使用Lucene进行索引，Lucene只理解文本格式 Nutch有许多插件，用于对特定格式的文档进行爬网我的疑问是：Nutch插件系统究竟是如何实现的我看到了团队wiki页面的我想要一些信息，比如Nutch是如何与Lucene一起工作的。Lucene所做的就是提供一种方法，将“”添加到结构化索引中，并针对该索引执行查询 Nutch crawler（我想这就是你所说的Nutch）只是提供了一种简单的方法来获取非结构化数据（即网站）并将其推送到索引中。就像

我不熟悉Nutch，但我知道Nutch使用Lucene进行索引，Lucene只理解文本格式

Nutch有许多插件，用于对特定格式的文档进行爬网

我的疑问是：Nutch插件系统究竟是如何实现的

我看到了团队wiki页面的

我想要一些信息，比如Nutch是如何与Lucene一起工作的。

Lucene所做的就是提供一种方法，将“”添加到结构化索引中，并针对该索引执行查询

Nutch crawler（我想这就是你所说的Nutch）只是提供了一种简单的方法来获取非结构化数据（即网站）并将其推送到索引中。就像您可以使用Solr轻松地将xml数据推送到lucene索引中一样

Nutch插件只是提供了一个钩子，你可以把客户的逻辑。例如，“”可以将二进制PDF文件转换为这些“lucene文档”之一。基本上，它所做的就是使用一个可以读取PDF文档（）的API来提取文本（这与“解析html”类似，因为html有很多非文本的部分，例如所有html标记）

因此，关于您对二进制格式的关注，解析并不困难，只是很难得到有用的东西。例如，我们可以编写一个“解析图像”插件，该插件可以提取有关图像的大量信息（即名称、格式、大小），只是解析图片中的“脸”或“狗”很困难。

Lucene所做的就是提供一种方法，将“”添加到结构化索引中，并针对该索引执行查询

因此，关于您对二进制格式的关注，解析并不困难，只是很难得到有用的东西。例如，我们可以编写一个“解析图像”插件，该插件可以提取有关图像的大量信息（即名称、格式、大小），只是解析图片中的“脸”或“狗”很困难