Machine learning 字到向量的线性激活函数

Machine learning 字到向量的线性激活函数,machine-learning,nlp,deep-learning,word2vec,activation-function,Machine Learning,Nlp,Deep Learning,Word2vec,Activation Function,实际上,他们使用的是线性激活函数。我的原因可能是他们提供了足够的训练数据来学习单词嵌入,所以非线性激活函数是不必要的,对吗 另外,如果我们在隐藏层中使用非线性激活函数,那么我认为效果会更好。那么,谷歌为什么在单词到向量的情况下使用线性激活函数呢 在我看来,你的大部分困惑来自于认为他们的模型是完全线性的。那不是真的,因为实际上最后总是有一个softmax层。线性的是之前的一切,这与NNLM不同 记住,所有单词表示方法的主要思想是预测相邻单词,即通过中心单词最大化上下文的总条件概率(反之亦然):

实际上,他们使用的是线性激活函数。我的原因可能是他们提供了足够的训练数据来学习单词嵌入,所以非线性激活函数是不必要的,对吗


另外,如果我们在隐藏层中使用非线性激活函数,那么我认为效果会更好。那么,谷歌为什么在单词到向量的情况下使用线性激活函数呢

在我看来,你的大部分困惑来自于认为他们的模型是完全线性的。那不是真的,因为实际上最后总是有一个softmax层。线性的是之前的一切,这与NNLM不同

记住,所有单词表示方法的主要思想是预测相邻单词,即通过中心单词最大化上下文的总条件概率(反之亦然):

因此,目标函数必须以最终的softmax层(或类似层)结束。我鼓励你阅读更多细节,它非常简短,写得很好

你是对的,神经网络的非线性程度越高,它的灵活性就越大,从而更好地逼近目标分布。在这种情况下,他们的理由是额外的灵活性并没有带来回报:最终,他们更快地获得了非常好的结果,这允许将此方法扩展到大型语料库,从而获得更好的结果


旁注:为了找到解决方案,线性回归根本不需要训练,有一个很接近的公式(尽管大型矩阵存在技术困难)。

提供文献参考,以便更快地做出响应。这里是他们在第3节中提到的关于该模型的论文链接。