Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何正确解释solr相似性分数?_Solr_Similarity - Fatal编程技术网

如何正确解释solr相似性分数?

如何正确解释solr相似性分数?,solr,similarity,Solr,Similarity,我知道,Solr返回的相似性分数仅与特定查询相关,并且它们仅具有相对意义。 话虽如此,是否有一种方法可以在全球范围内确定分数的“优点” 例如:假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数,但事实是,分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数,我甚至不考虑这些文档。 如何确定这一阈值?是仅仅通过经验测量,还是我可以说,通常情况下,相似度得分大于3表示内容非常相似,而相似度得分小于1通常表示文档完全无关?或者,我可以说,与文档自身相似性小于80%的结果是不相关的吗

我知道,
Solr
返回的相似性分数仅与特定查询相关,并且它们仅具有相对意义。 话虽如此,是否有一种方法可以在全球范围内确定分数的“优点”

例如:假设我运行一个MLT查询并得到5个文档。每个文档都有一个分数,但事实是,分数最高的文档不一定是最相关的文档。我希望能够指定一个阈值分数,我甚至不考虑这些文档。


如何确定这一阈值?是仅仅通过经验测量,还是我可以说,通常情况下,相似度得分大于3表示内容非常相似,而相似度得分小于1通常表示文档完全无关?或者,我可以说,与文档自身相似性小于80%的结果是不相关的吗?

对于给定文档,Solr可以确定感兴趣的术语及其权重:

"interestingTerms": 
    ["field_b:foo",5.0,"field_b:bar",2.9085307,"field_b:baz",1.67070794]
可用于生成以下搜索查询:

field_b:foo^5.0 field_b:bar^2.9085307 field_b:baz^1.67070794
因此,MLT是一个两步过程,找到给定文档的有趣术语和权重,然后使用这些术语进行搜索


请参阅中的和mlt.interestingTerms


你有这样一个门槛的充分理由吗?只需将结果呈现给用户即可。如果相似度很低,用户将(并且必须被允许)忽略结果

请参阅以下内容:StackOverflow专注于
为什么
,对tomcat一无所知。但仍然如此,用户总是忽视不好的MLT建议