Nlp 空间标记中的相似性度量_Nlp_Spacy

Nlp 空间标记中的相似性度量

nlp

Nlp 空间标记中的相似性度量,nlp,spacy,Nlp,Spacy,我试图衡量代币之间的相似性。我使用的是默认的en模型。当使用单数名词时，相似性度量与预期一样有效，但当使用复数相同名词时，相似性度量返回零 nlp = spacy.load('en') doc = nlp('apple orange') doc[0].similarity(doc[1]) 返回0.56189166448170025 doc = nlp('apples oranges') doc[0].similarity(doc[1]) 返回0.0 我是否需要执行任何预处理步骤才能使度量正常

我试图衡量代币之间的相似性。我使用的是默认的en模型。当使用单数名词时，相似性度量与预期一样有效，但当使用复数相同名词时，相似性度量返回零

nlp = spacy.load('en')
doc = nlp('apple orange')
doc[0].similarity(doc[1])

返回0.56189166448170025

doc = nlp('apples oranges')
doc[0].similarity(doc[1])

返回0.0

我是否需要执行任何预处理步骤才能使度量正常工作？谢谢。

我认为它没有短语相似性；另一种方法是标记你的短语，它的分数是每个标记相似性的平均值。或者，您可以使用短语相似性

请指定您使用的spacy版本？请指定您使用的spacy版本？