Nlp 如何解释CBOW单词嵌入?

Nlp 如何解释CBOW单词嵌入?,nlp,word2vec,word-embedding,Nlp,Word2vec,Word Embedding,在word2vec的上下文中,有人说“出现在相似上下文中的单词具有相似的单词嵌入”;例如,“爱”和“恨”可能有类似的嵌入,因为它们出现在“我”和“电影”等上下文词中,仅举一个例子 我通过skip gram得到了直觉:“爱”和“恨”的嵌入都应该预测上下文词“我”和“电影”,因此嵌入应该是相似的。然而,我不能用CBOW来理解它:它说“我”和“电影”的平均嵌入应该预测“爱”和“恨”;这是否必然导致“爱”和“恨”的嵌入应该是相似的?或者我们是否以不同的方式解释SG和CBOW的单词嵌入?在实践中,CBOW

在word2vec的上下文中,有人说“出现在相似上下文中的单词具有相似的单词嵌入”;例如,“爱”和“恨”可能有类似的嵌入,因为它们出现在“我”和“电影”等上下文词中,仅举一个例子


我通过skip gram得到了直觉:“爱”和“恨”的嵌入都应该预测上下文词“我”和“电影”,因此嵌入应该是相似的。然而,我不能用CBOW来理解它:它说“我”和“电影”的平均嵌入应该预测“爱”和“恨”;这是否必然导致“爱”和“恨”的嵌入应该是相似的?或者我们是否以不同的方式解释SG和CBOW的单词嵌入?

在实践中,CBOW中上下文的多样性使这一切变得更加顺畅–因此,同样适用于skip gram的直觉也应该适用于CBOW

即使“电影”对所有上下文词的平均向量的影响仅为1/N,当该平均向量得到反向传播校正,稍微更能预测“爱”(对于单个训练示例),对其有影响的每个词也会得到反向传播校正

在所有的例子和过程中,随机方向的纠正往往会相互抵消,但任何一致的趋势——就像两个经常同时出现的单词一样——都会加强它们的单词向量上类似的纠正轻推,使它们彼此靠近。(或者,在其他方面与单词相似的其他单词。)

Skip gram是一个刻板、简单的版本:强迫单词X对单词Y更具预测性——但预计许多其他1:1的更正都会平衡。CBOW分批处理:强制单词X^1、X^2、。。。X^n对单词Y的预测能力更强,但预计许多其他有点重叠的批次会根据需要将不同的单词拉到一起/分开