Nlp 空间标记中的相似性度量

Nlp 空间标记中的相似性度量,nlp,spacy,Nlp,Spacy,我试图衡量代币之间的相似性。我使用的是默认的en模型。当使用单数名词时,相似性度量与预期一样有效,但当使用复数相同名词时,相似性度量返回零 nlp = spacy.load('en') doc = nlp('apple orange') doc[0].similarity(doc[1]) 返回0.56189166448170025 doc = nlp('apples oranges') doc[0].similarity(doc[1]) 返回0.0 我是否需要执行任何预处理步骤才能使度量正常

我试图衡量代币之间的相似性。我使用的是默认的en模型。当使用单数名词时,相似性度量与预期一样有效,但当使用复数相同名词时,相似性度量返回零

nlp = spacy.load('en')
doc = nlp('apple orange')
doc[0].similarity(doc[1])
返回0.56189166448170025

doc = nlp('apples oranges')
doc[0].similarity(doc[1])
返回0.0


我是否需要执行任何预处理步骤才能使度量正常工作?谢谢。

我认为它没有短语相似性;另一种方法是标记你的短语,它的分数是每个标记相似性的平均值。或者,您可以使用短语相似性

我认为它没有短语相似性;另一种方法是标记你的短语,它的分数是每个标记相似性的平均值。或者,您可以使用短语相似性

请指定您使用的spacy版本?请指定您使用的spacy版本?