如何正确解释solr相似性分数？_Solr_Similarity

如何正确解释solr相似性分数？

solr

如何正确解释solr相似性分数？,solr,similarity,Solr,Similarity,我知道，Solr返回的相似性分数仅与特定查询相关，并且它们仅具有相对意义。话虽如此，是否有一种方法可以在全球范围内确定分数的“优点” 例如：假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数，但事实是，分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数，我甚至不考虑这些文档。如何确定这一阈值？是仅仅通过经验测量，还是我可以说，通常情况下，相似度得分大于3表示内容非常相似，而相似度得分小于1通常表示文档完全无关？或者，我可以说，与文档自身相似性小于80%的结果是不相关的吗

我知道，

Solr

返回的相似性分数仅与特定查询相关，并且它们仅具有相对意义。话虽如此，是否有一种方法可以在全球范围内确定分数的“优点”

例如：假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数，但事实是，分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数，我甚至不考虑这些文档。

如何确定这一阈值？是仅仅通过经验测量，还是我可以说，通常情况下，相似度得分大于3表示内容非常相似，而相似度得分小于1通常表示文档完全无关？或者，我可以说，与文档自身相似性小于80%的结果是不相关的吗？

对于给定文档，Solr可以确定感兴趣的术语及其权重：

"interestingTerms": 
    ["field_b:foo",5.0,"field_b:bar",2.9085307,"field_b:baz",1.67070794]

可用于生成以下搜索查询：

field_b:foo^5.0 field_b:bar^2.9085307 field_b:baz^1.67070794

因此，MLT是一个两步过程，找到给定文档的有趣术语和权重，然后使用这些术语进行搜索

请参阅中的和mlt.interestingTerms

你有这样一个门槛的充分理由吗？只需将结果呈现给用户即可。如果相似度很低，用户将（并且必须被允许）忽略结果

请参阅以下内容：StackOverflow专注于

为什么

，对tomcat一无所知。但仍然如此，用户总是忽视不好的MLT建议