Nlp 如何解释CBOW单词嵌入？_Nlp_Word2vec_Word Embedding

Nlp 如何解释CBOW单词嵌入？

nlp

Nlp 如何解释CBOW单词嵌入？,nlp,word2vec,word-embedding,Nlp,Word2vec,Word Embedding,在word2vec的上下文中，有人说“出现在相似上下文中的单词具有相似的单词嵌入”；例如，“爱”和“恨”可能有类似的嵌入，因为它们出现在“我”和“电影”等上下文词中，仅举一个例子我通过skip gram得到了直觉：“爱”和“恨”的嵌入都应该预测上下文词“我”和“电影”，因此嵌入应该是相似的。然而，我不能用CBOW来理解它：它说“我”和“电影”的平均嵌入应该预测“爱”和“恨”；这是否必然导致“爱”和“恨”的嵌入应该是相似的？或者我们是否以不同的方式解释SG和CBOW的单词嵌入？在实践中，CBOW

在word2vec的上下文中，有人说“出现在相似上下文中的单词具有相似的单词嵌入”；例如，“爱”和“恨”可能有类似的嵌入，因为它们出现在“我”和“电影”等上下文词中，仅举一个例子

我通过skip gram得到了直觉：“爱”和“恨”的嵌入都应该预测上下文词“我”和“电影”，因此嵌入应该是相似的。然而，我不能用CBOW来理解它：它说“我”和“电影”的平均嵌入应该预测“爱”和“恨”；这是否必然导致“爱”和“恨”的嵌入应该是相似的？或者我们是否以不同的方式解释SG和CBOW的单词嵌入？

在实践中，CBOW中上下文的多样性使这一切变得更加顺畅–因此，同样适用于skip gram的直觉也应该适用于CBOW

即使“电影”对所有上下文词的平均向量的影响仅为1/N，当该平均向量得到反向传播校正，稍微更能预测“爱”（对于单个训练示例），对其有影响的每个词也会得到反向传播校正

在所有的例子和过程中，随机方向的纠正往往会相互抵消，但任何一致的趋势——就像两个经常同时出现的单词一样——都会加强它们的单词向量上类似的纠正轻推，使它们彼此靠近。（或者，在其他方面与单词相似的其他单词。）

Skip gram是一个刻板、简单的版本：强迫单词X对单词Y更具预测性——但预计许多其他1:1的更正都会平衡。CBOW分批处理：强制单词X^1、X^2、。。。X^n对单词Y的预测能力更强，但预计许多其他有点重叠的批次会根据需要将不同的单词拉到一起/分开