Machine learning 带softmax函数的基本Skip bigram word2vec模型中每个单词的两个向量

Machine learning 带softmax函数的基本Skip bigram word2vec模型中每个单词的两个向量,machine-learning,word2vec,softmax,Machine Learning,Word2vec,Softmax,我正在读原始word2vec文件: 根据下式,每个词有两个向量,一个作为中心词用于预测上下文词,另一个作为上下文词。对于前者,我们可以在每次迭代中使用梯度下降来更新它。但如何更新后者呢?哪个向量是最终模型中的最终向量? 据我所知,无论使用什么架构(跳过gram/CBOW),字向量都是从同一个字向量矩阵中读取的 正如第二个脚注中所建议的,同一个单词(比如dog)中的v_in和v〃u out应该是不同的,并且在推导损失函数的过程中,假设它们来自不同的词汇表 实际上,单词出现在其自身上下文中的概率非常

我正在读原始word2vec文件:

根据下式,每个词有两个向量,一个作为中心词用于预测上下文词,另一个作为上下文词。对于前者,我们可以在每次迭代中使用梯度下降来更新它。但如何更新后者呢?哪个向量是最终模型中的最终向量?

据我所知,无论使用什么架构(跳过gram/CBOW),字向量都是从同一个字向量矩阵中读取的

正如第二个脚注中所建议的,同一个单词(比如dog)中的v_in和v〃u out应该是不同的,并且在推导损失函数的过程中,假设它们来自不同的词汇表

实际上,单词出现在其自身上下文中的概率非常低,并且大多数实现不保存同一单词的两个向量表示以节省内存和效率