Machine learning 带softmax函数的基本Skip bigram word2vec模型中每个单词的两个向量_Machine Learning_Word2vec_Softmax

Machine learning 带softmax函数的基本Skip bigram word2vec模型中每个单词的两个向量

machine-learning

Machine learning 带softmax函数的基本Skip bigram word2vec模型中每个单词的两个向量,machine-learning,word2vec,softmax,Machine Learning,Word2vec,Softmax,我正在读原始word2vec文件：根据下式，每个词有两个向量，一个作为中心词用于预测上下文词，另一个作为上下文词。对于前者，我们可以在每次迭代中使用梯度下降来更新它。但如何更新后者呢？哪个向量是最终模型中的最终向量？据我所知，无论使用什么架构（跳过gram/CBOW），字向量都是从同一个字向量矩阵中读取的正如第二个脚注中所建议的，同一个单词（比如dog）中的v_in和v〃u out应该是不同的，并且在推导损失函数的过程中，假设它们来自不同的词汇表实际上，单词出现在其自身上下文中的概率非常

我正在读原始word2vec文件：

根据下式，每个词有两个向量，一个作为中心词用于预测上下文词，另一个作为上下文词。对于前者，我们可以在每次迭代中使用梯度下降来更新它。但如何更新后者呢？哪个向量是最终模型中的最终向量？

据我所知，无论使用什么架构（跳过gram/CBOW），字向量都是从同一个字向量矩阵中读取的

正如第二个脚注中所建议的，同一个单词（比如dog）中的v_in和v〃u out应该是不同的，并且在推导损失函数的过程中，假设它们来自不同的词汇表

实际上，单词出现在其自身上下文中的概率非常低，并且大多数实现不保存同一单词的两个向量表示以节省内存和效率