Nlp 是否有一种语义相似度方法在语义准确性方面优于word2vec方法？_Nlp_Nltk_Gensim_Word2vec_Fasttext

Nlp 是否有一种语义相似度方法在语义准确性方面优于word2vec方法？

nlp

Nlp 是否有一种语义相似度方法在语义准确性方面优于word2vec方法？,nlp,nltk,gensim,word2vec,fasttext,Nlp,Nltk,Gensim,Word2vec,Fasttext,我正在研究各种语义相似性方法，如word2vec、单词移动距离（WMD）和fastText。就语义相似性而言，fastText并不比Word2Vec好。WMD和Word2Vec的结果几乎相似我想知道是否有一种替代方法在语义准确性方面优于Word2Vec模型我的用例：找到两个句子的单词嵌入，然后使用余弦相似性来找到它们的相似性任何技术是否“优于”另一种技术将在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。（甚至“语义相似性”也可能有许多其他方面，具体取决于应用程

我正在研究各种语义相似性方法，如word2vec、单词移动距离（WMD）和fastText。就语义相似性而言，fastText并不比Word2Vec好。WMD和Word2Vec的结果几乎相似

我想知道是否有一种替代方法在语义准确性方面优于Word2Vec模型

我的用例： 找到两个句子的单词嵌入，然后使用余弦相似性来找到它们的相似性

任何技术是否“优于”另一种技术将在很大程度上取决于您的训练数据、您选择的特定元参数选项以及您的确切最终任务。（甚至“语义相似性”也可能有许多其他方面，具体取决于应用程序。）

从word2vec单词向量到句子/段落向量没有一种方法。您可以添加原始向量。你可以平均单位标准化向量。你可以根据单词重要性的其他度量，进行其他类型的加权平均。所以你的隐含基线是不清楚的

基本上，您必须尝试各种方法和参数，用于您的数据和目标，以及您的自定义评估

Word Mover的距离不会将每个文本缩减为单个向量，而且两个文本之间的成对计算可能会很昂贵，但它在一些语义相似性任务中表现出非常好的性能

FastText本质上是word2vec，具有一些额外的增强功能和新模式。关闭附加功能的某些模式与word2vec完全相同，因此在某些WordVec to textvecs方案中使用FastText字向量应该与在相同方案中使用word2vec字向量非常接近。某些模式可能有助于提高单词向量的质量，但会降低wordvecs-to-textvecs方案中单词向量的有效性。某些模式可能会使单词向量更好地用于求和/平均合成方案–您应该特别关注“分类器”模式，该模式在分类任务中训练单词向量，使其在平均时表现良好。（在一定程度上，您可以为数据添加任何语义标签，这可能会使单词vecs对于语义相似性任务更具可组合性。）

您可能还想了解“段落向量”技术（在gensim中以

Doc2Vec

的形式提供），或其他简称为“fastSent”或“sent2vec”的研究结果

在什么任务上胜过word2vec？@mbatchkarov语义准确性。更新了问题。我指的是上下文感知的相似性和语义相似性，这正是单词移动者的距离想要达到的。例如，特朗普和美国总统应该被认为是相似的，尽管这是两个不同的词。我也在松散地使用“跑赢大盘”。我想知道，除了这些模型，人们是否在任何类型的相似性任务中观察到了更好的结果。至少，这会给我一个尝试特定事物的起点。