Php 全文检索得分相关性分析

Php 全文检索得分相关性分析,php,mysql,full-text-search,statistics,Php,Mysql,Full Text Search,Statistics,我在尝试实现全文搜索时遇到了问题。对我来说,它更像是数学/统计学。从数据库中提取的数据是书名,因此查询返回的分数可能有非常接近的值(例如:9.98;9.97;9.78-这些都是非常相关的结果)或广泛分布(例如:9.99;8.2;2.1-前两个是相关的,第三个是噪声)。我不知道如何操作查询结果来删除不相关的内容。Std偏差不起作用,因为在我的第一个示例中,它过滤好的结果,各种规范化方法要么忽略相关的结果,要么包含不相关的结果。有什么想法或想法吗 谢谢。 维克托我只是在处理一个类似的问题,但使用的是

我在尝试实现全文搜索时遇到了问题。对我来说,它更像是数学/统计学。从数据库中提取的数据是书名,因此查询返回的分数可能有非常接近的值(例如:9.98;9.97;9.78-这些都是非常相关的结果)或广泛分布(例如:9.99;8.2;2.1-前两个是相关的,第三个是噪声)。我不知道如何操作查询结果来删除不相关的内容。Std偏差不起作用,因为在我的第一个示例中,它过滤好的结果,各种规范化方法要么忽略相关的结果,要么包含不相关的结果。有什么想法或想法吗

谢谢。
维克托

我只是在处理一个类似的问题,但使用的是基于时间的数据,而不是全文。我发现了,除其他外,它指出,在真实的钟形曲线中,大约95%的结果在平均值的2个标准偏差范围内。我掌握了这些知识,决定将5%的结果作为异常值扔掉。你也可以做类似的事情——忽略5%的全文结果中相关性得分最低的部分


另一种选择可能是选择某个阈值相关性得分,或者选择要显示的某个最小结果数。或者两者兼而有之——您可以根据任何一个条件显示更多结果。

我不知道您的项目的确切约束条件和用例,但在制作图书标题搜索功能时,我想知道。。。对你来说,担心什么是相关的是最好的吗?用户可能会选择不好的搜索词,最终得到他们真正想要的内容,并在该特定搜索的排名列表中垫底。此外,结果是否会以分页方式显示?也许不值得担心异常值,只允许您的分页机制隐藏相关性较小的选项,而不完全阻止用户查找它们。谢谢您的建议。这也是我所想的,也是我绊倒的地方。下面是一个例子:对“马克·吐温的故事”的查询返回了两个带有分数的点击结果:“马克·吐温的短篇小说”(8.87)和“马克·吐温的最佳短篇小说”(8.25);这些的stddev为.2192,第二个结果在2sigma之外,但在3sigma之内,正如预期的那样:)不能使用3sigma,因为所有的异常值都将被包括在内。经过几天的阅读和处理数据后,我仍然处于困境