如何提高查询和文档相似性度量python TFIDF、BM25精度、召回率_Python_Precision_Information Retrieval_Tf Idf_Precision Recall

如何提高查询和文档相似性度量python TFIDF、BM25精度、召回率

python

如何提高查询和文档相似性度量python TFIDF、BM25精度、召回率,python,precision,information-retrieval,tf-idf,precision-recall,Python,Precision,Information Retrieval,Tf Idf,Precision Recall,我尝试计算查询和文档的TF-IDF，并使用COS距离对结果进行排序，得到前50个类似文档。同样，我计算BM25得分，将BM25得分最高的排名第一，并获得前50名类似文档然而，对于TF-IDF和BM25，结果都不好（数据集为标签。测试数据集的大小为1400文档）：在我创建的搜索系统中输入queryID=1之后。它从总共1400份文件中检索到365份文件所以我对queryID=1365个文档使用了IT-IDF排名 the system might only return the rel

我尝试计算查询和文档的TF-IDF，并使用COS距离对结果进行排序，得到前50个类似文档。同样，我计算BM25得分，将BM25得分最高的排名第一，并获得前50名类似文档

然而，对于TF-IDF和BM25，结果都不好

（数据集为标签。测试数据集的大小为1400文档）：

在我创建的搜索系统中输入queryID=1之后。它从总共1400份文件中检索到365份文件

所以我对queryID=1365个文档使用了IT-IDF排名

the system might only return the  relevant document ID: 38.txt

 the system might only return the  relevant document ID: 19.txt

类似地，我对queryID=1365个文档使用了BM25排名

the system might only return the  relevant document ID: 38.txt

 the system might only return the  relevant document ID: 19.txt

通过手动检查365个文档，在365个文档中：它实际上包含相关文档ID:19.txt、25.txt、35.txt、38.txt、45.txt和其他非相关文档ID

由于相似性度量较差，它会影响准确度和召回率。

我可以知道如何提高准确率、召回率或排名方法吗？

我认为您应该向前迈进一步，使用语言模型进行信息检索。使用这个。

我认为你应该向前迈出一步，使用语言模型进行信息检索。使用此选项。

详细说明您的答案尽管您将OP指向一个好的教程，但您可以给出一些介绍性的想法，并说明为什么语言模型更适合OP的任务。详细说明你的答案尽管你在给OP一个好的教程，但你可以给出一些介绍性的想法，并说明为什么语言模型更适合OP的任务。否则，您可以将其作为注释。