Algorithm 帮助解释bm25。小索引中的稀有词/小索引中的常用词_Algorithm_Search_Indexing_Full Text Search_Sphinx

Algorithm 帮助解释bm25。小索引中的稀有词/小索引中的常用词

algorithm search indexing sphinx

Algorithm 帮助解释bm25。小索引中的稀有词/小索引中的常用词,algorithm,search,indexing,full-text-search,sphinx,Algorithm,Search,Indexing,Full Text Search,Sphinx,我需要一点帮助来理解bm25的相关性排名我使用斯芬克斯。如果索引很小，比如说，这会对文档中经常出现的常用词的相关性产生负面影响吗？假设你在指数中总共有4篇文章非常小，是的……标题是：挪威，加拿大股市再次反弹，加拿大，越南。指定的字段为标题和正文。假设问题是：加拿大。基本上，加拿大是按降序排列的。加拿大ii。加拿大股市再次反弹iii.挪威在本文中确实如此。bm25没有考虑词频吗？我读到索引中经常出现的词，而文档实际上记录了排名。顺便说一句，当我在sphinx中使用邻近度搜索bm25时……加拿大股市

我需要一点帮助来理解bm25的相关性排名我使用斯芬克斯。如果索引很小，比如说，这会对文档中经常出现的常用词的相关性产生负面影响吗？假设你在指数中总共有4篇文章非常小，是的……标题是：挪威，加拿大股市再次反弹，加拿大，越南。指定的字段为标题和正文。假设问题是：加拿大。基本上，加拿大是按降序排列的。加拿大ii。加拿大股市再次反弹iii.挪威在本文中确实如此。bm25没有考虑词频吗？我读到索引中经常出现的词，而文档实际上记录了排名。顺便说一句，当我在sphinx中使用邻近度搜索bm25时……加拿大股市反弹的排名再次略高于加拿大……好奇：p有一些关于sphinx上bm25实现的具体信息。请注意，解释从BM25开始。。。仅取决于匹配关键字的频率。测量本身主要基于TF项频率和IDF逆文档频率；i、 e.该术语在整个语料库中的出现频率以及包含该术语的文档的倒数。参考链接中给出了公式