elasticsearch,relevance,Search,elasticsearch,Relevance" /> elasticsearch,relevance,Search,elasticsearch,Relevance" />

通过相关性过滤ElasticSearch的结果

通过相关性过滤ElasticSearch的结果,search,elasticsearch,relevance,Search,elasticsearch,Relevance,我正试图找出解决这个问题的最佳方法。假设我有一个用户正在输入一个简短的句子,我想将这个句子(本质上是一个查询)与分配给该用户的一小部分文档相匹配。我所面临的问题是,与谷歌搜索不同,谷歌搜索中,高度相关的文档列表与低相关的文档列表是有意义的,我希望在没有用户干预的情况下自动选择这些文档的子集。有没有办法过滤掉“低相关性”文档 在研究这一点时,答案似乎是否定的,因为elasticsearch的_分数在不同的查询中并不一致(文档中指出min_分数使用起来很愚蠢)。对于给定的查询,有没有一种方法可以过滤

我正试图找出解决这个问题的最佳方法。假设我有一个用户正在输入一个简短的句子,我想将这个句子(本质上是一个查询)与分配给该用户的一小部分文档相匹配。我所面临的问题是,与谷歌搜索不同,谷歌搜索中,高度相关的文档列表与低相关的文档列表是有意义的,我希望在没有用户干预的情况下自动选择这些文档的子集。有没有办法过滤掉“低相关性”文档

在研究这一点时,答案似乎是否定的,因为elasticsearch的_分数在不同的查询中并不一致(文档中指出min_分数使用起来很愚蠢)。对于给定的查询,有没有一种方法可以过滤掉那些没有至少90%的最高分数的结果(我确信这可以用一种处理结果的语言来完成,我很好奇ES是否通过一些内置功能来提供)?如何筛选不匹配多个术语的文档(这样只匹配查询的一个术语的文档将被删除)


谢谢你的洞察力

选项呢?

选项呢?

这似乎很接近,但也许我不理解可选条款是什么。在这种情况下,我想说文档需要匹配多个术语,而不是查询中的太多额外子句。这有意义吗?仍然在学习英语。你可以说“2个或更多条款必须匹配”,或者你可以说“75%的条款必须匹配”,或者您构造了一个复合策略,该策略显式地命名了术语的百分比或数量,这些术语必须与具有显式数量的术语的查询相匹配。@PeterDixon Moses有任何指针或链接,我可以在其中找到关于如何在查询中设置这些术语的更多信息吗?请参阅上面Igor Belo回答中的链接,该链接将标记为“正确”,尽管在某种意义上,这并没有真正的答案,因为每种情况都会不同。我将研究其他选项,但这看起来是一个很好的选项,可以从搜索结果中删除只有几个词的内容。谢谢你(和@PeterDixon Moses)的帮助!这似乎很接近,但也许我不理解什么是可选条款。在这种情况下,我想说文档需要匹配多个术语,而不是查询中的太多额外子句。这有意义吗?仍然在学习英语。你可以说“2个或更多条款必须匹配”,或者你可以说“75%的条款必须匹配”,或者您构造了一个复合策略,该策略显式地命名了术语的百分比或数量,这些术语必须与具有显式数量的术语的查询相匹配。@PeterDixon Moses有任何指针或链接,我可以在其中找到关于如何在查询中设置这些术语的更多信息吗?请参阅上面Igor Belo回答中的链接,该链接将标记为“正确”,尽管在某种意义上,这并没有真正的答案,因为每种情况都会不同。我将研究其他选项,但这看起来是一个很好的选项,可以从搜索结果中删除只有几个词的内容。谢谢你(和@PeterDixon Moses)的帮助!你能给我们一些示例文档吗?为了让我们更好地理解,你到底想要什么?这可能有点做作,但是:假设用户正在键入“我真的很喜欢新的android三星手机”,所涉及的文档都是这样的短标题:“你需要知道的关于android手机、三星和LG手机、爱情和其他一切的一切”。前两个词在匹配两个词时具有高度相关性,而另一个词的相关性较低(匹配一个词)。因此我会尝试过滤掉相关性较小的词(我知道一般来说这可能是一项很奇怪的任务,只是好奇是否有人有这样的想法)你能给我们一些示例文档吗?你到底想要什么以便我们能更好地理解?这可能有点做作,但是:假设用户输入“我真的很喜欢新的安卓三星手机”,相关文件的标题大致如下:“关于安卓手机、三星和LG手机、爱情和其他一切,你需要了解的一切”。前两个术语在匹配两个术语时具有较高的相关性,而另一个术语的相关性较低(匹配一个术语)因此,我会尝试过滤掉不太相关的内容(我知道这通常可能是一项奇怪的任务,只是好奇是否有人有这样的想法)