Algorithm 帮助解释bm25。小索引中的稀有词/小索引中的常用词

Algorithm 帮助解释bm25。小索引中的稀有词/小索引中的常用词,algorithm,search,indexing,full-text-search,sphinx,Algorithm,Search,Indexing,Full Text Search,Sphinx,我需要一点帮助来理解bm25的相关性排名我使用斯芬克斯。如果索引很小,比如说,这会对文档中经常出现的常用词的相关性产生负面影响吗?假设你在指数中总共有4篇文章非常小,是的……标题是:挪威,加拿大股市再次反弹,加拿大,越南。指定的字段为标题和正文。假设问题是:加拿大。基本上,加拿大是按降序排列的。加拿大ii。加拿大股市再次反弹iii.挪威在本文中确实如此。bm25没有考虑词频吗?我读到索引中经常出现的词,而文档实际上记录了排名。顺便说一句,当我在sphinx中使用邻近度搜索bm25时……加拿大股市

我需要一点帮助来理解bm25的相关性排名我使用斯芬克斯。如果索引很小,比如说,这会对文档中经常出现的常用词的相关性产生负面影响吗?假设你在指数中总共有4篇文章非常小,是的……标题是:挪威,加拿大股市再次反弹,加拿大,越南。指定的字段为标题和正文。假设问题是:加拿大。基本上,加拿大是按降序排列的。加拿大ii。加拿大股市再次反弹iii.挪威在本文中确实如此。bm25没有考虑词频吗?我读到索引中经常出现的词,而文档实际上记录了排名。顺便说一句,当我在sphinx中使用邻近度搜索bm25时……加拿大股市反弹的排名再次略高于加拿大……好奇:p有一些关于sphinx上bm25实现的具体信息。请注意,解释从BM25开始。。。仅取决于匹配关键字的频率。测量本身主要基于TF项频率和IDF逆文档频率;i、 e.该术语在整个语料库中的出现频率以及包含该术语的文档的倒数。参考链接中给出了公式