Nlp 两个文档之间的不同特征

Nlp 两个文档之间的不同特征,nlp,nltk,gensim,cosine-similarity,Nlp,Nltk,Gensim,Cosine Similarity,我试图找出这两份文件的不同之处。我正在使用gensim,到目前为止已经获得了相似性分数 有没有办法知道两份文件之间的不同分数和不同特征? 如何评价呢?使用词向量的余弦相似度给出了两个句子之间的语义相似度。首先,让我们了解这是如何计算的。假设有两个向量表示两个文本文档 及 然后向量的点积由下式给出 几何上,θ表示平面上a和b向量之间的角度。因此,角度越小,相似度越高。因此,余弦相似性方法报告了该角度度量。现在几何上,如果两个向量之间的差值较小,则角度较小,因此余弦相似性较高。如果角度远且接近

我试图找出这两份文件的不同之处。我正在使用gensim,到目前为止已经获得了相似性分数

有没有办法知道两份文件之间的不同分数和不同特征?
如何评价呢?

使用词向量的余弦相似度给出了两个句子之间的语义相似度。首先,让我们了解这是如何计算的。假设有两个向量表示两个文本文档

然后向量的点积由下式给出

几何上,θ表示平面上ab向量之间的角度。因此,角度越小,相似度越高。因此,余弦相似性方法报告了该角度度量。现在几何上,如果两个向量之间的差值较小,则角度较小,因此余弦相似性较高。如果角度远且接近90',则其余弦接近零

因此,低分数的余弦相似性表示不相关向量。当然,在文本文档中,不相关向量可能是差异性的度量。否则,如果角度接近180',则余弦相似性将接近1,但将被否定。这可能意味着这两个文档具有相反的含义。这又是一种不同类型的差异

总之,根据应用程序的不同,您可以使用不相关和相反的向量来度量差异性。
你也可以考虑句法上的差异,比如依赖性解析树、命名实体等的差异,但是又不知道你到底想要达到什么目标,它很难给出一个单一的方法。

对于一个通用的领域,你不认为(1余弦相似性)可以作为不相似度的度量吗?谢谢。这是我到目前为止所做的评估。但我还没有找到不同的特征。