Neural network 为什么sigmoid函数在神经网络中起作用？_Neural Network_Backpropagation

Neural network 为什么sigmoid函数在神经网络中起作用？

neural-network

Neural network 为什么sigmoid函数在神经网络中起作用？,neural-network,backpropagation,Neural Network,Backpropagation,我刚刚开始为神经网络编程。我目前正在研究反向传播（BP）神经网络是如何工作的。虽然BP网络中的训练算法非常简单，但我找不到任何关于该算法工作原理的文本。更具体地说，我正在寻找一些数学推理来证明在神经网络中使用sigmoid函数的合理性，以及是什么让它们模拟几乎任何向它们抛出的数据分布谢谢 sigmoid函数在网络中引入非线性。如果没有非线性激活函数，网络只能学习其输入的线性组合函数。这个结果被称为普适逼近定理或西本科定理，是1989年那位绅士证明的。这是一个很好的开始，它有一个到原始文件的链接

我刚刚开始为神经网络编程。我目前正在研究反向传播（BP）神经网络是如何工作的。虽然BP网络中的训练算法非常简单，但我找不到任何关于该算法工作原理的文本。更具体地说，我正在寻找一些数学推理来证明在神经网络中使用sigmoid函数的合理性，以及是什么让它们模拟几乎任何向它们抛出的数据分布

谢谢

sigmoid函数在网络中引入非线性。如果没有非线性激活函数，网络只能学习其输入的线性组合函数。这个结果被称为

普适逼近定理

或

西本科定理

，是1989年那位绅士证明的。这是一个很好的开始，它有一个到原始文件的链接（尽管证据有点复杂）。之所以要使用S形函数而不是其他函数，是因为它是连续的、可微的，它的导数计算速度非常快（与tanh的导数相反，tanh的导数具有类似的性质），并且范围有限（从0到1，互斥）

回答得不错，但假设“连续（因此可微）”他站不住脚。例如：abs（x），在零处是连续的，但不可微。维基百科的文章说：Kurt Hornik在1991年指出，这不是激活函数的具体选择，而是多层前馈结构本身，它赋予了神经网络成为通用近似器的潜力。输出单位总是假定为线性的。”事实上，它似乎并没有说需要非线性激活函数。但该定理的形式陈述说的是“非恒定、有界、单调递增的连续函数”“--也许有界和单调的部分意味着非线性？@Desty，线性激活函数将整个网络变成线性分类器（线性函数的线性组合仍然是线性的），这使得隐藏单元变得无用。尽管深度学习的领域已经转向整流单元，但这是相当有趣的，它本质上是一个线性函数。“没有它，网络只能学习其输入的线性组合的函数。”它是什么意思“S形函数”、“非线性”还是“激活函数”？