Machine learning 理解Skip-gram模型输出

Machine learning 理解Skip-gram模型输出,machine-learning,neural-network,word2vec,Machine Learning,Neural Network,Word2vec,如果Skip gram Word2vec模型中隐藏层和输出层之间的所有权重矩阵都相同,那么输出之间又有什么不同呢?本周我试图理解Skip gram时遇到了相同的问题。我浏览了整个互联网,却没有找到答案。幸运的是我能弄明白 首先,您在问题中提到的输出实际上是相同的。你说得对。但它仍然有意义,因为我们之所以说输出向量是因为在skip-gram窗口中有n个单词。每个输出将与此窗口中的不同单词进行比较,我们将分别计算它们的错误。然后我们用反向传播更新矩阵 我强烈建议您阅读这篇文章:。它将解释您在word

如果Skip gram Word2vec模型中隐藏层和输出层之间的所有权重矩阵都相同,那么输出之间又有什么不同呢?

本周我试图理解Skip gram时遇到了相同的问题。我浏览了整个互联网,却没有找到答案。幸运的是我能弄明白

首先,您在问题中提到的输出实际上是相同的。你说得对。但它仍然有意义,因为我们之所以说输出向量是因为在skip-gram窗口中有n个单词。每个输出将与此窗口中的不同单词进行比较,我们将分别计算它们的错误。然后我们用反向传播更新矩阵

我强烈建议您阅读这篇文章:。它将解释您在word2vec基础知识方面遇到的所有问题


干杯

遇到了同样的问题,因为丑八怪回答说输出是一样的。作为补充,有一个简单的例子如下(使用较低的精度):

产生

[[ 0.14522021  0.09623482  0.11615102  0.11297892  0.15114373  0.12464769 0.12064487  0.1466973 ]]
yk和相应真值向量之间的差异随后被反向传播以更新权重wi和wo

[[ 0.14522021  0.09623482  0.11615102  0.11297892  0.15114373  0.12464769 0.12064487  0.1466973 ]]