Deep learning 在分层Softmax模型中矩阵是如何相乘的?

Deep learning 在分层Softmax模型中矩阵是如何相乘的?,deep-learning,word2vec,hierarchical,softmax,Deep Learning,Word2vec,Hierarchical,Softmax,据我所知,简单的word2vec方法使用两个矩阵,如下所示: 假设语料库由N个单词组成。 尺寸为NxF(F为特征数)的加权输入矩阵(WI)。 带有尺寸FxN的加权输出矩阵(WO)。 我们用WI乘以一个热向量1xN,得到一个神经元1xF。 然后我们将神经元与WO相乘,得到输出向量1xN。 我们应用softmax函数并选择向量中的最高条目(概率)。 问题:在使用分层Softmax模型时,如何说明这一点? 什么将与哪个矩阵相乘以得到将导致向左或向右分支的二维向量? 另外,我确实理解使用二叉树等的分层S

据我所知,简单的word2vec方法使用两个矩阵,如下所示: 假设语料库由N个单词组成。 尺寸为NxF(F为特征数)的加权输入矩阵(WI)。 带有尺寸FxN的加权输出矩阵(WO)。 我们用WI乘以一个热向量1xN,得到一个神经元1xF。 然后我们将神经元与WO相乘,得到输出向量1xN。 我们应用softmax函数并选择向量中的最高条目(概率)。 问题:在使用分层Softmax模型时,如何说明这一点? 什么将与哪个矩阵相乘以得到将导致向左或向右分支的二维向量? 另外,我确实理解使用二叉树等的分层Softmax模型的思想,但我不知道乘法是如何在数学上完成的


感谢

为了让事情变得简单,假设N是2的幂。二叉树将有N-1个内部节点。这些节点与尺寸为Fx(N-1)的WO挂钩

计算每个内部节点的值后,计算左分支和右分支的值。使用类似于sigmoid函数的东西来指定(比如)左分支。右分支仅为1减去左分支

要进行预测,请找到从根到叶的最大概率路径

要进行训练,请确定正确的叶,并确定内部节点到根的路径。从那些日志(N)节点开始反向传播