Nlp 为什么我们使用输入隐藏权重矩阵作为词向量而不是隐藏输出权重矩阵?

Nlp 为什么我们使用输入隐藏权重矩阵作为词向量而不是隐藏输出权重矩阵?,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,在word2vec中,经过训练得到两个权重矩阵:1.输入隐藏权重矩阵;2.隐式输出权重矩阵。人们将使用输入隐藏权重矩阵作为词向量(每行对应一个词,即词向量)。下面是我的困惑: 为什么人们使用输入隐藏权重矩阵而不是输出隐藏权重矩阵作为词向量 我们为什么不在隐藏层而不是输出层中添加softmax激活功能,从而避免耗时 另外,对于如何获得这样的词向量的直观性,我们将不胜感激。对于问题1: 这是因为输入权重矩阵用于目标词,而输出权重矩阵用于上下文词。我们试图为一个单词学习的向量是单词本身作为目标单词的向

在word2vec中,经过训练得到两个权重矩阵:1.输入隐藏权重矩阵;2.隐式输出权重矩阵。人们将使用输入隐藏权重矩阵作为词向量(每行对应一个词,即词向量)。下面是我的困惑:

  • 为什么人们使用输入隐藏权重矩阵而不是输出隐藏权重矩阵作为词向量
  • 我们为什么不在隐藏层而不是输出层中添加softmax激活功能,从而避免耗时
  • 另外,对于如何获得这样的词向量的直观性,我们将不胜感激。

    对于问题1:

    这是因为输入权重矩阵用于
    目标词
    ,而输出权重矩阵用于
    上下文词
    。我们试图为一个单词学习的向量是单词本身作为
    目标单词的向量
    ——正如word2vec的直觉是在类似上下文中出现的
    单词(作为目标单词!)学习类似的向量表示


    上下文单词的向量仅为培训目的而存在。可以使用与目标词相同的向量,但单独学习两者更好。例如:如果使用相同的向量表示,该模型将产生一个词在其自身上下文中出现的最高概率(两个相同向量的点积),但这显然是违反直觉的(你有多少次一个接一个地使用两个相同的词?)

    关于输入隐权矩阵和输出隐权矩阵,有一篇有趣的研究论文。 “文档排名的双重嵌入空间模型”,Mitra等人,2016年第14期。(). 与你的问题类似,本文研究了这两个权重矩阵是如何不同的,并声称它们编码了单词的不同特征

    总的来说,根据我的理解,根据您的数据和要解决的问题,您可以选择使用输入隐藏权重矩阵(约定)、隐藏输出权重矩阵或组合矩阵作为单词嵌入