elasticsearch Elasticsearch:术语频率与字段范数,elasticsearch,lucene,elasticsearch,Lucene" /> elasticsearch Elasticsearch:术语频率与字段范数,elasticsearch,lucene,elasticsearch,Lucene" />

elasticsearch Elasticsearch:术语频率与字段范数

elasticsearch Elasticsearch:术语频率与字段范数,elasticsearch,lucene,elasticsearch,Lucene,我是elasticsearch的新手,我正在努力理解评分算法 据此,ES使用术语频率,即术语在文档中出现的次数的平方根。以及场长范数,即场中项数的平方根倒数 因此,基本上,如果我在映射的字段标题中搜索单词ticket,在4个单词的标题中出现1次ticket相当于在8个单词的标题中出现2次ticket 到目前为止,这并没有让我感到震惊,但根据这个公式,一张冠军票的权重,也将与一张冠军票的权重相同,而一张冠军票的权重也相同 我知道这种情况不太可能发生,但我只是想理解背后的逻辑 对我来说,术语频率应该

我是elasticsearch的新手,我正在努力理解评分算法

据此,ES使用术语频率,即术语在文档中出现的次数的平方根。以及场长范数,即场中项数的平方根倒数

因此,基本上,如果我在映射的字段标题中搜索单词ticket,在4个单词的标题中出现1次ticket相当于在8个单词的标题中出现2次ticket

到目前为止,这并没有让我感到震惊,但根据这个公式,一张冠军票的权重,也将与一张冠军票的权重相同,而一张冠军票的权重也相同

我知道这种情况不太可能发生,但我只是想理解背后的逻辑

对我来说,术语频率应该比字段长度更重要


我错过什么了吗?或者你认为ES使用的公式有意义吗

这里车票和火车票的重量不一样。这就是重点,我明白了。我想说的是,为什么不直接使用频率这个术语,而不是它的平方根呢。因此,车票的重量为1,车票的重量为2的平方根,火车票的重量为2的1/平方根。这对我来说更有意义。对我来说,车票和车票看起来应该是一样的,优先级应该是一样的。字段规范化的思想是查看该标记对于该上下文的重要性。因此,如果这是所有的标记,那么重要性就是最大值。