如何提高查询和文档相似性度量python TFIDF、BM25精度、召回率

如何提高查询和文档相似性度量python TFIDF、BM25精度、召回率,python,precision,information-retrieval,tf-idf,precision-recall,Python,Precision,Information Retrieval,Tf Idf,Precision Recall,我尝试计算查询和文档的TF-IDF,并使用COS距离对结果进行排序,得到前50个类似文档。 同样,我计算BM25得分,将BM25得分最高的排名第一,并获得前50名类似文档 然而,对于TF-IDF和BM25,结果都不好 (数据集为标签。测试数据集的大小为1400文档): 在我创建的搜索系统中输入queryID=1之后。它从总共1400份文件中检索到365份文件 所以我对queryID=1365个文档使用了IT-IDF排名 the system might only return the rel

我尝试计算查询和文档的TF-IDF,并使用COS距离对结果进行排序,得到前50个类似文档。 同样,我计算BM25得分,将BM25得分最高的排名第一,并获得前50名类似文档

然而,对于TF-IDF和BM25,结果都不好

(数据集为标签。测试数据集的大小为1400文档):

在我创建的搜索系统中输入queryID=1之后。它从总共1400份文件中检索到365份文件

所以我对queryID=1365个文档使用了IT-IDF排名

the system might only return the  relevant document ID: 38.txt
 the system might only return the  relevant document ID: 19.txt
类似地,我对queryID=1365个文档使用了BM25排名

the system might only return the  relevant document ID: 38.txt
 the system might only return the  relevant document ID: 19.txt
通过手动检查365个文档,在365个文档中:它实际上包含相关文档ID:19.txt、25.txt、35.txt、38.txt、45.txt和其他非相关文档ID

由于相似性度量较差, 它会影响准确度和召回率。
我可以知道如何提高准确率、召回率或排名方法吗?

我认为您应该向前迈进一步,使用语言模型进行信息检索。使用这个。

我认为你应该向前迈出一步,使用语言模型进行信息检索。使用此选项。

详细说明您的答案尽管您将OP指向一个好的教程,但您可以给出一些介绍性的想法,并说明为什么语言模型更适合OP的任务。详细说明你的答案尽管你在给OP一个好的教程,但你可以给出一些介绍性的想法,并说明为什么语言模型更适合OP的任务。否则,您可以将其作为注释。