Machine learning 字到向量的线性激活函数_Machine Learning_Nlp_Deep Learning_Word2vec_Activation Function

Machine learning 字到向量的线性激活函数

machine-learning nlp deep-learning

Machine learning 字到向量的线性激活函数,machine-learning,nlp,deep-learning,word2vec,activation-function,Machine Learning,Nlp,Deep Learning,Word2vec,Activation Function,实际上，他们使用的是线性激活函数。我的原因可能是他们提供了足够的训练数据来学习单词嵌入，所以非线性激活函数是不必要的，对吗另外，如果我们在隐藏层中使用非线性激活函数，那么我认为效果会更好。那么，谷歌为什么在单词到向量的情况下使用线性激活函数呢在我看来，你的大部分困惑来自于认为他们的模型是完全线性的。那不是真的，因为实际上最后总是有一个softmax层。线性的是之前的一切，这与NNLM不同记住，所有单词表示方法的主要思想是预测相邻单词，即通过中心单词最大化上下文的总条件概率（反之亦然）：

实际上，他们使用的是线性激活函数。我的原因可能是他们提供了足够的训练数据来学习单词嵌入，所以非线性激活函数是不必要的，对吗

另外，如果我们在隐藏层中使用非线性激活函数，那么我认为效果会更好。那么，谷歌为什么在单词到向量的情况下使用线性激活函数呢

在我看来，你的大部分困惑来自于认为他们的模型是完全线性的。那不是真的，因为实际上最后总是有一个softmax层。线性的是之前的一切，这与NNLM不同

记住，所有单词表示方法的主要思想是预测相邻单词，即通过中心单词最大化上下文的总条件概率（反之亦然）：

因此，目标函数必须以最终的softmax层（或类似层）结束。我鼓励你阅读更多细节，它非常简短，写得很好

你是对的，神经网络的非线性程度越高，它的灵活性就越大，从而更好地逼近目标分布。在这种情况下，他们的理由是额外的灵活性并没有带来回报：最终，他们更快地获得了非常好的结果，这允许将此方法扩展到大型语料库，从而获得更好的结果

旁注：为了找到解决方案，线性回归根本不需要训练，有一个很接近的公式（尽管大型矩阵存在技术困难）。

提供文献参考，以便更快地做出响应。这里是他们在第3节中提到的关于该模型的论文链接。