Deep learning 在分层Softmax模型中矩阵是如何相乘的？_Deep Learning_Word2vec_Hierarchical_Softmax

Deep learning 在分层Softmax模型中矩阵是如何相乘的？

deep-learning

Deep learning 在分层Softmax模型中矩阵是如何相乘的？,deep-learning,word2vec,hierarchical,softmax,Deep Learning,Word2vec,Hierarchical,Softmax,据我所知，简单的word2vec方法使用两个矩阵，如下所示：假设语料库由N个单词组成。尺寸为NxF（F为特征数）的加权输入矩阵（WI）。带有尺寸FxN的加权输出矩阵（WO）。我们用WI乘以一个热向量1xN，得到一个神经元1xF。然后我们将神经元与WO相乘，得到输出向量1xN。我们应用softmax函数并选择向量中的最高条目（概率）。问题：在使用分层Softmax模型时，如何说明这一点？什么将与哪个矩阵相乘以得到将导致向左或向右分支的二维向量？另外，我确实理解使用二叉树等的分层S

据我所知，简单的word2vec方法使用两个矩阵，如下所示：假设语料库由N个单词组成。尺寸为NxF（F为特征数）的加权输入矩阵（WI）。带有尺寸FxN的加权输出矩阵（WO）。我们用WI乘以一个热向量1xN，得到一个神经元1xF。然后我们将神经元与WO相乘，得到输出向量1xN。我们应用softmax函数并选择向量中的最高条目（概率）。问题：在使用分层Softmax模型时，如何说明这一点？什么将与哪个矩阵相乘以得到将导致向左或向右分支的二维向量？另外，我确实理解使用二叉树等的分层Softmax模型的思想，但我不知道乘法是如何在数学上完成的

感谢

为了让事情变得简单，假设N是2的幂。二叉树将有N-1个内部节点。这些节点与尺寸为Fx（N-1）的WO挂钩

计算每个内部节点的值后，计算左分支和右分支的值。使用类似于sigmoid函数的东西来指定（比如）左分支。右分支仅为1减去左分支

要进行预测，请找到从根到叶的最大概率路径

要进行训练，请确定正确的叶，并确定内部节点到根的路径。从那些日志（N）节点开始反向传播