Nlp 是否有一种语义相似度方法在语义准确性方面优于word2vec方法?

Nlp 是否有一种语义相似度方法在语义准确性方面优于word2vec方法?,nlp,nltk,gensim,word2vec,fasttext,Nlp,Nltk,Gensim,Word2vec,Fasttext,我正在研究各种语义相似性方法,如word2vec、单词移动距离(WMD)和fastText。就语义相似性而言,fastText并不比Word2Vec好。WMD和Word2Vec的结果几乎相似 我想知道是否有一种替代方法在语义准确性方面优于Word2Vec模型 我的用例: 找到两个句子的单词嵌入,然后使用余弦相似性来找到它们的相似性 任何技术是否“优于”另一种技术将在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。(甚至“语义相似性”也可能有许多其他方面,具体取决于应用程

我正在研究各种语义相似性方法,如word2vec、单词移动距离(WMD)和fastText。就语义相似性而言,fastText并不比Word2Vec好。WMD和Word2Vec的结果几乎相似

我想知道是否有一种替代方法在语义准确性方面优于Word2Vec模型

我的用例: 找到两个句子的单词嵌入,然后使用余弦相似性来找到它们的相似性

任何技术是否“优于”另一种技术将在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。(甚至“语义相似性”也可能有许多其他方面,具体取决于应用程序。)

从word2vec单词向量到句子/段落向量没有一种方法。您可以添加原始向量。你可以平均单位标准化向量。你可以根据单词重要性的其他度量,进行其他类型的加权平均。所以你的隐含基线是不清楚的

基本上,您必须尝试各种方法和参数,用于您的数据和目标,以及您的自定义评估

Word Mover的距离不会将每个文本缩减为单个向量,而且两个文本之间的成对计算可能会很昂贵,但它在一些语义相似性任务中表现出非常好的性能

FastText本质上是word2vec,具有一些额外的增强功能和新模式。关闭附加功能的某些模式与word2vec完全相同,因此在某些WordVec to textvecs方案中使用FastText字向量应该与在相同方案中使用word2vec字向量非常接近。某些模式可能有助于提高单词向量的质量,但会降低wordvecs-to-textvecs方案中单词向量的有效性。某些模式可能会使单词向量更好地用于求和/平均合成方案–您应该特别关注“分类器”模式,该模式在分类任务中训练单词向量,使其在平均时表现良好。(在一定程度上,您可以为数据添加任何语义标签,这可能会使单词vecs对于语义相似性任务更具可组合性。)


您可能还想了解“段落向量”技术(在gensim中以
Doc2Vec
的形式提供),或其他简称为“fastSent”或“sent2vec”的研究结果

在什么任务上胜过word2vec?@mbatchkarov语义准确性。更新了问题。我指的是上下文感知的相似性和语义相似性,这正是单词移动者的距离想要达到的。例如,特朗普和美国总统应该被认为是相似的,尽管这是两个不同的词。我也在松散地使用“跑赢大盘”。我想知道,除了这些模型,人们是否在任何类型的相似性任务中观察到了更好的结果。至少,这会给我一个尝试特定事物的起点。