Lucene:如何获得查询和文本之间的相似性

Lucene:如何获得查询和文本之间的相似性,lucene,information-retrieval,similarity,Lucene,Information Retrieval,Similarity,我对一篇文章有很多疑问。例如“北美”、“欧洲”、“亚洲”(查询)和一个文本(例如关于美国的大文本(例如维基百科文章)) 现在,我构建了一个大文本索引,然后发送上述查询。现在Lucene(版本4)计算一个分数。但正如我通过不同的搜索所知道的,这并不是真正的百分比,查询和文本之间也没有真正的相似性。 使用TFIDF,我的分数很低(90% “欧洲”、“亚洲”==>40% …或者别的什么,但这应该是一个真正的相似之处 我能做什么?有人有什么想法吗?Lucene评分不是用来表示百分比的,也不能有效地将其标

我对一篇文章有很多疑问。例如“北美”、“欧洲”、“亚洲”(查询)和一个文本(例如关于美国的大文本(例如维基百科文章))

现在,我构建了一个大文本索引,然后发送上述查询。现在Lucene(版本4)计算一个分数。但正如我通过不同的搜索所知道的,这并不是真正的百分比,查询和文本之间也没有真正的相似性。 使用TFIDF,我的分数很低(90% “欧洲”、“亚洲”==>40%

…或者别的什么,但这应该是一个真正的相似之处


我能做什么?有人有什么想法吗?

Lucene评分不是用来表示百分比的,也不能有效地将其标准化。请参阅和。可能重复我已经读到的关于不使用分数作为%的内容。现在我使用术语频率来获得这样的结果。