Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 不同ElasticSearch相似性算法的简单解释_Algorithm_Search_Lucene_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Scoring - Fatal编程技术网 elasticsearch,scoring,Algorithm,Search,Lucene,elasticsearch,Scoring" /> elasticsearch,scoring,Algorithm,Search,Lucene,elasticsearch,Scoring" />

Algorithm 不同ElasticSearch相似性算法的简单解释

Algorithm 不同ElasticSearch相似性算法的简单解释,algorithm,search,lucene,elasticsearch,scoring,Algorithm,Search,Lucene,elasticsearch,Scoring,我正在研究不同的相似性算法,这些算法定义了在搜索过程中如何计算每个文档的分数。以下列出了可用的算法: 我的问题是,在翻阅维基百科文章或LuceneAPI文档中的类描述时,我很难理解它们。我真的很喜欢这里解释TF/IDF相似性算法(ElasticSearch中的默认算法)的答案:(所以我对这个问题有一定的理解) 有没有人能对这里概述的其他算法提供类似的简单解释?这些措施包括: bm25相似性 drf相似性 ib相似性 提前谢谢。根据链接答案中的描述,您在这里遇到的问题是,Lucene的默认相似

我正在研究不同的相似性算法,这些算法定义了在搜索过程中如何计算每个文档的分数。以下列出了可用的算法:

我的问题是,在翻阅维基百科文章或LuceneAPI文档中的类描述时,我很难理解它们。我真的很喜欢这里解释TF/IDF相似性算法(ElasticSearch中的默认算法)的答案:(所以我对这个问题有一定的理解)

有没有人能对这里概述的其他算法提供类似的简单解释?这些措施包括:

  • bm25相似性
  • drf相似性
  • ib相似性

提前谢谢。

根据链接答案中的描述,您在这里遇到的问题是,Lucene的默认相似性和bm25基本相同,因为它们都考虑到:

  • 文档中出现的次数越多越好
  • 语料库中较少见的术语优先使用
  • 较短的文档更重
  • 用于调整分数、提升等的其他功能
dfr
实际上仅包含7个不同的基本模型,每个模型使用不同的评分算法,然后是两个高度可配置的标准化步骤。许多配置选项符合上述非常一般的步骤,有些与之不同


类似地,
ib
也允许一些重要的配置,但通常达到相同的高点,即支持更高的术语频率,支持更罕见的术语匹配(根据某些描述),并调整文档长度、提升和其他可能的规范化。

谢谢您的回答。我已经假设他们是相似的。我猜
dfr
ib
(与标准TF/IDF相比)的复杂性使得解释它变得更加困难。不过,我仍在寻找更详细的描述。我想知道的是,在ElasticSearch中对数据建模的某些方式是否更适合使用一种或另一种相似性算法。至于Lucene与ElasticSearch对哪种相似性实现更好产生影响,这应该不是问题。使用相同的分析器索引的相同文本在ElasticSearch和raw Lucene中的搜索和得分方式几乎相同。通常,除非您有理由离开默认值,否则应使用默认值。如前所述,BM25可能比Lucene标准更适用于短油田。DFR和IB是非常相似的(文档注意到它们可以在稍后合并),并且提供了许多基于IR理论来考虑的选项。谢谢您的评论。我接受你的回答。