如何正确解释solr相似性分数?
我知道,如何正确解释solr相似性分数?,solr,similarity,Solr,Similarity,我知道,Solr返回的相似性分数仅与特定查询相关,并且它们仅具有相对意义。 话虽如此,是否有一种方法可以在全球范围内确定分数的“优点” 例如:假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数,但事实是,分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数,我甚至不考虑这些文档。 如何确定这一阈值?是仅仅通过经验测量,还是我可以说,通常情况下,相似度得分大于3表示内容非常相似,而相似度得分小于1通常表示文档完全无关?或者,我可以说,与文档自身相似性小于80%的结果是不相关的吗
Solr
返回的相似性分数仅与特定查询相关,并且它们仅具有相对意义。
话虽如此,是否有一种方法可以在全球范围内确定分数的“优点”
例如:假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数,但事实是,分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数,我甚至不考虑这些文档。
如何确定这一阈值?是仅仅通过经验测量,还是我可以说,通常情况下,相似度得分大于3表示内容非常相似,而相似度得分小于1通常表示文档完全无关?或者,我可以说,与文档自身相似性小于80%的结果是不相关的吗?对于给定文档,Solr可以确定感兴趣的术语及其权重:
"interestingTerms":
["field_b:foo",5.0,"field_b:bar",2.9085307,"field_b:baz",1.67070794]
可用于生成以下搜索查询:
field_b:foo^5.0 field_b:bar^2.9085307 field_b:baz^1.67070794
因此,MLT是一个两步过程,找到给定文档的有趣术语和权重,然后使用这些术语进行搜索
请参阅中的和mlt.interestingTerms
你有这样一个门槛的充分理由吗?只需将结果呈现给用户即可。如果相似度很低,用户将(并且必须被允许)忽略结果 请参阅以下内容:StackOverflow专注于
为什么
,对tomcat一无所知。但仍然如此,用户总是忽视不好的MLT建议