Search ApacheLucene vs谷歌搜索设备

Search ApacheLucene vs谷歌搜索设备,search,lucene,google-search-appliance,Search,Lucene,Google Search Appliance,有人见过ApacheLucene的特性吗?我听说它甚至可以与谷歌搜索设备(GSA)相媲美。如果可能的话,我想在两者之间做一个明确的比较 网上提供的这些比较非常模糊。在Apache Lucene和Google搜索设备之间可能很难找到比较,因为它们是如此不同的东西。Lucene是一个内置基本相关性“增强”的文档索引软件组件,而GSA是一个企业搜索产品(设备/物理硬件),具有很多现成的功能,可以根据Google搜索算法调整和优化搜索结果 因此,它们基本上是两个具有不同实现场景的伟大工具。但当然重叠,尤

有人见过ApacheLucene的特性吗?我听说它甚至可以与谷歌搜索设备(GSA)相媲美。如果可能的话,我想在两者之间做一个明确的比较


网上提供的这些比较非常模糊。

在Apache Lucene和Google搜索设备之间可能很难找到比较,因为它们是如此不同的东西。Lucene是一个内置基本相关性“增强”的文档索引软件组件,而GSA是一个企业搜索产品(设备/物理硬件),具有很多现成的功能,可以根据Google搜索算法调整和优化搜索结果

因此,它们基本上是两个具有不同实现场景的伟大工具。但当然重叠,尤其是当用于在普通网站上提供搜索时

在我的脑海中,您可能想从几个主题开始进行比较:

部署/架构

  • Lucene是一个软件组件,可以深入集成到您自己的软件中,提供一个索引(通常基于文件,有时在内存中)来快速索引和检索内容
  • lucene项目提供了一个相当大的分析器列表,可以对不同的语言(西语、阿拉伯语、亚语等)进行propper索引,但是分析器还有改进的余地
  • Lucene for.Net是集成在Microsoft.Net平台上的一个非常流行的端口
  • GSA软件和硬件捆绑在一起,作为带有HTTP(s)接口的设备出售,提供HTML(通过其自己的XSLT)或XML(以便更好地集成到您的网站)形式的搜索结果
  • GSA附带语言包(已安装并可下载)。您必须选择其中一个捆绑包。如果您需要对更多语言的支持,您可能需要向基础架构添加另一个GSA(如果所有必需的语言不在一个包中)
  • GSA性能优异,只需很少的维护
  • GSA让您几乎无需任何工程努力即可实现规模化。可以通过web界面设置全球分布但连接的GSA
  • GSA可以通过购买更便宜的热备份模块来实现HA
索引编制

  • Lucene提供了爬虫程序(和爬虫API)来索引内容。它不在乎你的爬虫程序是否真的像谷歌一样对网站进行爬网,或者你是否基于SQL语句对数据库进行爬网,或者提供从平面文件读取的文本流。但是,如果提供的爬虫程序不适合您的需要,通常您必须实现爬虫程序
  • GSA使用谷歌使用的爬虫技术,尊重机器人指令(TXT或Meta标记),它为无法爬网的源(即它们之间没有链接)提供了一个提要API,并支持设置对所有数据库的SQL查询,以便从数据库中检索数据(无论是要爬网的URL还是数据本身)
检索/相关性调整

  • Lucene不针对相关性调整,也不支持相关性调整(除了增加索引中的条目)。由应用程序使用索引结果进行调整
  • Lucene是SOLR使用的索引,它提供了更类似于GSA的调优和体系结构(包括通过HTTP的结果检索)
  • GSA允许您根据元数据、日期和URL模式对结果集进行偏移。在最新版本中,您甚至可以设置自己的实体,并根据它们对结果进行偏移
  • GSA支持元数据的开箱即用方面以及界面上的一些更奇特的东西,如文档的预览图像、自动建议等
商业物品

  • Lucene是一种开源(无成本)产品,但需要购买硬件
  • 50万个文档/URL的GSA起价约为2万美元
  • 谷歌提供了几个支持级别
  • GSA许可证必须在2年或3年的基础上更新(您可以获得新的硬件)
  • GSA不需要任何额外的硬件(包括设备)
……还有很多要补充的,但我希望你能理解


2016年2月更新:


谷歌已通知合作伙伴,GSA将于2019年左右停产。目前最适合链接的网站似乎是。

我不同意这一评论
Lucene的目标不是相关性调整,也不支持相关性调整(除了增加索引中的条目)。这取决于使用索引结果进行调优的应用程序
考虑到有关于基于Lucene的相关性调优的整本书(是的,这是我的书)都同意,我对“调优”的领域不够具体。Lucene提供了一种评分机制,可以在文档和字段级别以及在查询时提高分数。但是,使用lucene应用业务规则(SORL、ElasticSearch等提供了此类机制)仍然取决于应用程序。你能解释一下你具体不同意的地方吗?我会相应地更新我的答案。谢谢。最好将GSA与弹性搜索()或Solr()进行比较。两者都更适合开发搜索引擎,并且都基于Lucene。