Scikit learn 欧几里德距离度量语义相似性吗?

Scikit learn 欧几里德距离度量语义相似性吗?,scikit-learn,gensim,euclidean-distance,cosine-similarity,sentence-similarity,Scikit Learn,Gensim,Euclidean Distance,Cosine Similarity,Sentence Similarity,我想衡量句子之间的相似性。我可以用sklearn和欧几里德距离来衡量句子之间的语义相似性吗。我也读过关于余弦相似性的文章。有人能解释一下这些度量的区别吗?最好的方法是什么?计算语义相似性有多种选择。这取决于你想要实现什么以及你想要使用哪些资源 你是说“船在海里游泳”中的语义相似性与“船在湖上漂浮”相似吗 单词嵌入(如word2vec)为每个单词创建向量。词向量定位在向量空间中,使得“在语料库中共享公共上下文的词在空间中彼此非常接近”() 欧几里得距离或余弦距离可以测量两个词向量之间的距离。这通常

我想衡量句子之间的相似性。我可以用sklearn和欧几里德距离来衡量句子之间的语义相似性吗。我也读过关于余弦相似性的文章。有人能解释一下这些度量的区别吗?最好的方法是什么?

计算语义相似性有多种选择。这取决于你想要实现什么以及你想要使用哪些资源

你是说“船在海里游泳”中的语义相似性与“船在湖上漂浮”相似吗

单词嵌入(如word2vec)为每个单词创建向量。词向量定位在向量空间中,使得“在语料库中共享公共上下文的词在空间中彼此非常接近”()

欧几里得距离或余弦距离可以测量两个词向量之间的距离。这通常被视为词与词之间的语义相似。要测量句子之间的距离或相似性,可以使用单词移动器距离,该距离由实现。单词移动距离通过使用称为“地球移动距离”(earth mover distance)的方法计算从一组单词向量(一个句子)到另一组单词向量的距离


另一种计算句子相似度的方法是doc2vec。另请参见:

欧几里德距离是欧几里德几何中定义的距离,即您在几何课程中学习的距离。它可以用来计算空间中(f.ex)两点之间的距离。要应用这个公式,你需要能够把你的句子变成N维空间中的一个点。我猜你想要像“Levenshtein编辑距离”这样的东西,但它通常用于单词,而不是句子。我知道这不是一个真正的答案……是的,语义相似性是指你提到的方式。