Lucene：如何获得查询和文本之间的相似性_Lucene_Information Retrieval_Similarity

Lucene：如何获得查询和文本之间的相似性

lucene

Lucene：如何获得查询和文本之间的相似性,lucene,information-retrieval,similarity,Lucene,Information Retrieval,Similarity,我对一篇文章有很多疑问。例如“北美”、“欧洲”、“亚洲”（查询）和一个文本（例如关于美国的大文本（例如维基百科文章））现在，我构建了一个大文本索引，然后发送上述查询。现在Lucene（版本4）计算一个分数。但正如我通过不同的搜索所知道的，这并不是真正的百分比，查询和文本之间也没有真正的相似性。使用TFIDF，我的分数很低（90% “欧洲”、“亚洲”==>40% …或者别的什么，但这应该是一个真正的相似之处我能做什么？有人有什么想法吗？Lucene评分不是用来表示百分比的，也不能有效地将其标

我对一篇文章有很多疑问。例如“北美”、“欧洲”、“亚洲”（查询）和一个文本（例如关于美国的大文本（例如维基百科文章））

现在，我构建了一个大文本索引，然后发送上述查询。现在Lucene（版本4）计算一个分数。但正如我通过不同的搜索所知道的，这并不是真正的百分比，查询和文本之间也没有真正的相似性。使用TFIDF，我的分数很低（90% “欧洲”、“亚洲”==>40%

…或者别的什么，但这应该是一个真正的相似之处

我能做什么？有人有什么想法吗？

Lucene评分不是用来表示百分比的，也不能有效地将其标准化。请参阅和。可能重复我已经读到的关于不使用分数作为%的内容。现在我使用术语频率来获得这样的结果。