如何确定Lucene相关性/截止值?

如何确定Lucene相关性/截止值?,lucene,search-engine,Lucene,Search Engine,确定相关性和结果截止点的最佳方法是什么 所以我现在正在研究的系统包括搜索库存并返回结果。每个结果都必须由员工审核,以确定是否为真实匹配。显然,我们希望尽量减少返回的错误结果的数量 我一直在调整助推器和其他东西以使其得分更好,但我们在确定相关性方面仍然有一些问题 绝对阈值不起作用,因为搜索分数仅相对于给定查询中的结果有意义。因此,一个查询的分数为200可能与另一个查询的分数为0.2不太相关 我见过的另一种方法是相对于查询的最高分数进行标准化的分数。然后我们可以返回所有在该分数x%以内的结果。但是,

确定相关性和结果截止点的最佳方法是什么

所以我现在正在研究的系统包括搜索库存并返回结果。每个结果都必须由员工审核,以确定是否为真实匹配。显然,我们希望尽量减少返回的错误结果的数量

我一直在调整助推器和其他东西以使其得分更好,但我们在确定相关性方面仍然有一些问题

绝对阈值不起作用,因为搜索分数仅相对于给定查询中的结果有意义。因此,一个查询的分数为200可能与另一个查询的分数为0.2不太相关

我见过的另一种方法是相对于查询的最高分数进行标准化的分数。然后我们可以返回所有在该分数x%以内的结果。但是,如果没有好的结果,那么排名靠前的结果很差,我们返回的所有结果都很差

如何确定哪些文件相关,哪些文件不相关