Nlp 两个文档之间的不同特征_Nlp_Nltk_Gensim_Cosine Similarity

Nlp 两个文档之间的不同特征

nlp

Nlp 两个文档之间的不同特征,nlp,nltk,gensim,cosine-similarity,Nlp,Nltk,Gensim,Cosine Similarity,我试图找出这两份文件的不同之处。我正在使用gensim，到目前为止已经获得了相似性分数有没有办法知道两份文件之间的不同分数和不同特征？如何评价呢？使用词向量的余弦相似度给出了两个句子之间的语义相似度。首先，让我们了解这是如何计算的。假设有两个向量表示两个文本文档及然后向量的点积由下式给出几何上，θ表示平面上a和b向量之间的角度。因此，角度越小，相似度越高。因此，余弦相似性方法报告了该角度度量。现在几何上，如果两个向量之间的差值较小，则角度较小，因此余弦相似性较高。如果角度远且接近

我试图找出这两份文件的不同之处。我正在使用gensim，到目前为止已经获得了相似性分数

有没有办法知道两份文件之间的不同分数和不同特征？

如何评价呢？

使用词向量的余弦相似度给出了两个句子之间的语义相似度。首先，让我们了解这是如何计算的。假设有两个向量表示两个文本文档

及

然后向量的点积由下式给出

几何上，θ表示平面上a和b向量之间的角度。因此，角度越小，相似度越高。因此，余弦相似性方法报告了该角度度量。现在几何上，如果两个向量之间的差值较小，则角度较小，因此余弦相似性较高。如果角度远且接近90'，则其余弦接近零

因此，低分数的余弦相似性表示不相关向量。当然，在文本文档中，不相关向量可能是差异性的度量。否则，如果角度接近180'，则余弦相似性将接近1，但将被否定。这可能意味着这两个文档具有相反的含义。这又是一种不同类型的差异

总之，根据应用程序的不同，您可以使用不相关和相反的向量来度量差异性。

你也可以考虑句法上的差异，比如依赖性解析树、命名实体等的差异，但是又不知道你到底想要达到什么目标，它很难给出一个单一的方法。

对于一个通用的领域，你不认为（1余弦相似性）可以作为不相似度的度量吗？谢谢。这是我到目前为止所做的评估。但我还没有找到不同的特征。