Document TF-IDF余弦相似性得分阈值

Document TF-IDF余弦相似性得分阈值,document,similarity,threshold,Document,Similarity,Threshold,这个问题与这个问题非常相似: 我该如何切断细微的相似之处?在上面的链接中,答案给出了一种基于平均值的技术。但这可能会返回文档,即使所有相似性都非常小,例如,

这个问题与这个问题非常相似:

我该如何切断细微的相似之处?在上面的链接中,答案给出了一种基于平均值的技术。但这可能会返回文档,即使所有相似性都非常小,例如,<0.01

我如何知道一个给定的文档查询是否与语料库如此无关,以至于不应该认为其他文档与之类似?是否有一种系统的方法来定义此项的截止值