Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/drupal/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 弹性搜索相似性折扣重叠_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Lucene - Fatal编程技术网 elasticsearch 弹性搜索相似性折扣重叠,elasticsearch,lucene,elasticsearch,Lucene" /> elasticsearch 弹性搜索相似性折扣重叠,elasticsearch,lucene,elasticsearch,Lucene" />

elasticsearch 弹性搜索相似性折扣重叠

elasticsearch 弹性搜索相似性折扣重叠,elasticsearch,lucene,elasticsearch,Lucene,我正在使用Elasticsearch 5.3.1,评估BM25和经典TF/IDF。 我遇到了折扣重叠属性,它是可选的 确定是否重叠标记(位置增量为0的标记) 在计算范数时忽略。默认情况下,这是真的,意思是 计算规范时,重叠标记不计算在内 如果可能的话,有人能用一个例子解释一下上面的意思吗。首先,标准值计算为boost/√长度,此值在索引时存储。这会导致短字段上的匹配获得更高的分数(因为10分之一通常比1000分之一更好) 例如,假设我们的分析器上有一个同义词过滤器,它将以字段的索引形式索引一组同

我正在使用Elasticsearch 5.3.1,评估BM25和经典TF/IDF。 我遇到了
折扣重叠
属性,它是可选的

确定是否重叠标记(位置增量为0的标记) 在计算范数时忽略。默认情况下,这是真的,意思是 计算规范时,重叠标记不计算在内


如果可能的话,有人能用一个例子解释一下上面的意思吗。

首先,标准值计算为
boost/√长度
,此值在索引时存储。这会导致短字段上的匹配获得更高的分数(因为10分之一通常比1000分之一更好)

例如,假设我们的分析器上有一个同义词过滤器,它将以字段的索引形式索引一组同义词。然后,我们为该文本编制索引:

那人扔飞盘

一旦分析器将所有同义词添加到字段中,它看起来如下所示:

现在,当我们搜索“那个家伙投了一张光盘”时,我们会得到一个匹配

问题是,就上述标准计算而言,长度是多少

  • 如果折扣重叠=false,则长度=12
  • 如果折扣重叠=true,则长度=5

感谢您的帮助!你有任何链接,让我可以阅读更多关于这个?我不介意它是否也是一本书的一部分(我可以买它)是否有查询来查找长度值?