Solr是否需要为Nutch的爬网数据编制索引?

Solr是否需要为Nutch的爬网数据编制索引?,solr,lucene,nutch,Solr,Lucene,Nutch,我发现Nutch1.4只包含一个索引器/solrindex。Solr是Nutch索引已爬网数据的唯一方法吗?如果没有,还有哪些方法 我还想知道为什么Nutch1.4使用Solr来索引数据。为什么不自己做呢?它不会增加这两个项目的耦合吗?Solr在内部使用lucene自2005年以来,nutch被指定为Lucene的子项目。历史上,nutch使用Lucene索引,是一个成熟的搜索引擎(直到1.0版)。它具有爬行功能,甚至支持索引数据,并通过浏览器的UI查询索引数据(类似于谷歌搜索) 由于最初的设计

我发现Nutch1.4只包含一个索引器/solrindex。Solr是Nutch索引已爬网数据的唯一方法吗?如果没有,还有哪些方法


我还想知道为什么Nutch1.4使用Solr来索引数据。为什么不自己做呢?它不会增加这两个项目的耦合吗?

Solr在内部使用lucene自2005年以来,nutch被指定为Lucene的子项目。历史上,nutch使用Lucene索引,是一个成熟的搜索引擎(直到1.0版)。它具有爬行功能,甚至支持索引数据,并通过浏览器的UI查询索引数据(类似于谷歌搜索)

由于最初的设计是基于lucene的(这是另一个apache项目,在那个时期赢得了很多赞誉,现在仍然很流行),nutch代码没有改变或变得通用,因此可以使用其他索引框架。如果你想,那么你需要付出大量的努力来建立你的索引框架

在最新版本中(nutch 1.3版及更高版本),nutch开发团队意识到,由于需求和所需专业知识的变化,很难跟踪索引中涉及的工作最好将索引的责任委托给Solr(它是一个基于lucene的索引框架)。Nutch开发人员只关注爬行部分。所以现在nutch不是一个成熟的搜索引擎,而是一个成熟的网络爬虫

希望这能回答你的疑问。你可以浏览更多信息

最近发生的事情:


最近,有人正在努力为爬虫程序创建一个通用库(在commons下)。这个项目是一个将有一个网络爬虫所需的所有功能,并可用于创建爬虫。进一步的nutch版本将使用此库作为依赖项。

最后一个问题:关键词是模块化!通常,在开发(或寻找)软件时,您希望寻找一组集中的职责和简单的插件能力。Nutch擅长爬行,Solr擅长信息检索。