Nlp tf idf(三角形不等式)的余弦相似性替代方案

Nlp tf idf(三角形不等式)的余弦相似性替代方案,nlp,cluster-analysis,information-retrieval,tf-idf,cosine-similarity,Nlp,Cluster Analysis,Information Retrieval,Tf Idf,Cosine Similarity,我正在尝试使用tf idf对类似文档进行集群。我的系统的一个主要缺点是它使用余弦相似性来决定哪些向量应该分组在一起 问题是余弦相似性不满足三角形不等式。因为在我的例子中,我不能在多个集群中拥有相同的向量,我必须将每个集群合并为一个共同的元素,这可能导致两个文档被分组在一起,即使它们彼此不相似 是否有其他方法来衡量两份文件的相似性,以便: 矢量根据其方向(无论大小)评分为非常相似 满足三角形不等式:如果A类似于B,B类似于C,那么A也类似于C 余弦是标准化数据上的欧几里德平方 因此,只需L2将向

我正在尝试使用tf idf对类似文档进行集群。我的系统的一个主要缺点是它使用余弦相似性来决定哪些向量应该分组在一起

问题是余弦相似性不满足三角形不等式。因为在我的例子中,我不能在多个集群中拥有相同的向量,我必须将每个集群合并为一个共同的元素,这可能导致两个文档被分组在一起,即使它们彼此不相似

是否有其他方法来衡量两份文件的相似性,以便:

  • 矢量根据其方向(无论大小)评分为非常相似
  • 满足三角形不等式:如果A类似于B,B类似于C,那么A也类似于C

余弦是标准化数据上的欧几里德平方


因此,只需L2将向量标准化为单位长度,并使用欧几里德公式。

不确定它是否能帮助您。看看本文中的方法。它弥补了余弦和ED的一些缺点,有助于以更高的精度识别向量之间的相似性。更高的准确性有助于您了解哪些文档非常相似,并且可以分组在一起。这篇论文展示了为什么TS-SS可以帮助你做到这一点


我不确定你说的对不对:三角形不等式还是等式?然而,这里有我关于不同相似性模型和术语权重的笔记(大多数模型都提供了来源/引用,因此你可以进行更多研究):这两个列表都在不断构建中,因为我将它们用作新发现方法的个人日记(还有我的上帝:广阔的宇宙!)。