elasticsearch 弹性搜索相似性折扣重叠
我正在使用Elasticsearch 5.3.1,评估BM25和经典TF/IDF。 我遇到了
elasticsearch 弹性搜索相似性折扣重叠,
elasticsearch,lucene,
elasticsearch,Lucene,我正在使用Elasticsearch 5.3.1,评估BM25和经典TF/IDF。 我遇到了折扣重叠属性,它是可选的 确定是否重叠标记(位置增量为0的标记) 在计算范数时忽略。默认情况下,这是真的,意思是 计算规范时,重叠标记不计算在内 如果可能的话,有人能用一个例子解释一下上面的意思吗。首先,标准值计算为boost/√长度,此值在索引时存储。这会导致短字段上的匹配获得更高的分数(因为10分之一通常比1000分之一更好) 例如,假设我们的分析器上有一个同义词过滤器,它将以字段的索引形式索引一组同
折扣重叠
属性,它是可选的
确定是否重叠标记(位置增量为0的标记)
在计算范数时忽略。默认情况下,这是真的,意思是
计算规范时,重叠标记不计算在内
如果可能的话,有人能用一个例子解释一下上面的意思吗。首先,标准值计算为
boost/√长度
,此值在索引时存储。这会导致短字段上的匹配获得更高的分数(因为10分之一通常比1000分之一更好)
例如,假设我们的分析器上有一个同义词过滤器,它将以字段的索引形式索引一组同义词。然后,我们为该文本编制索引:
那人扔飞盘
一旦分析器将所有同义词添加到字段中,它看起来如下所示:
现在,当我们搜索“那个家伙投了一张光盘”时,我们会得到一个匹配
问题是,就上述标准计算而言,长度是多少
- 如果折扣重叠=false,则长度=12
- 如果折扣重叠=true,则长度=5