Machine learning 理解Skip-gram模型输出
如果Skip gram Word2vec模型中隐藏层和输出层之间的所有权重矩阵都相同,那么输出之间又有什么不同呢?本周我试图理解Skip gram时遇到了相同的问题。我浏览了整个互联网,却没有找到答案。幸运的是我能弄明白 首先,您在问题中提到的输出实际上是相同的。你说得对。但它仍然有意义,因为我们之所以说输出向量是因为在skip-gram窗口中有n个单词。每个输出将与此窗口中的不同单词进行比较,我们将分别计算它们的错误。然后我们用反向传播更新矩阵 我强烈建议您阅读这篇文章:。它将解释您在word2vec基础知识方面遇到的所有问题Machine learning 理解Skip-gram模型输出,machine-learning,neural-network,word2vec,Machine Learning,Neural Network,Word2vec,如果Skip gram Word2vec模型中隐藏层和输出层之间的所有权重矩阵都相同,那么输出之间又有什么不同呢?本周我试图理解Skip gram时遇到了相同的问题。我浏览了整个互联网,却没有找到答案。幸运的是我能弄明白 首先,您在问题中提到的输出实际上是相同的。你说得对。但它仍然有意义,因为我们之所以说输出向量是因为在skip-gram窗口中有n个单词。每个输出将与此窗口中的不同单词进行比较,我们将分别计算它们的错误。然后我们用反向传播更新矩阵 我强烈建议您阅读这篇文章:。它将解释您在word
干杯 遇到了同样的问题,因为丑八怪回答说输出是一样的。作为补充,有一个简单的例子如下(使用较低的精度): 产生
[[ 0.14522021 0.09623482 0.11615102 0.11297892 0.15114373 0.12464769 0.12064487 0.1466973 ]]
yk和相应真值向量之间的差异随后被反向传播以更新权重wi和wo
[[ 0.14522021 0.09623482 0.11615102 0.11297892 0.15114373 0.12464769 0.12064487 0.1466973 ]]