Neural network 为什么sigmoid函数在神经网络中起作用?

Neural network 为什么sigmoid函数在神经网络中起作用?,neural-network,backpropagation,Neural Network,Backpropagation,我刚刚开始为神经网络编程。我目前正在研究反向传播(BP)神经网络是如何工作的。虽然BP网络中的训练算法非常简单,但我找不到任何关于该算法工作原理的文本。更具体地说,我正在寻找一些数学推理来证明在神经网络中使用sigmoid函数的合理性,以及是什么让它们模拟几乎任何向它们抛出的数据分布 谢谢 sigmoid函数在网络中引入非线性。如果没有非线性激活函数,网络只能学习其输入的线性组合函数。这个结果被称为普适逼近定理或西本科定理,是1989年那位绅士证明的。这是一个很好的开始,它有一个到原始文件的链接

我刚刚开始为神经网络编程。我目前正在研究反向传播(BP)神经网络是如何工作的。虽然BP网络中的训练算法非常简单,但我找不到任何关于该算法工作原理的文本。更具体地说,我正在寻找一些数学推理来证明在神经网络中使用sigmoid函数的合理性,以及是什么让它们模拟几乎任何向它们抛出的数据分布


谢谢

sigmoid函数在网络中引入非线性。如果没有非线性激活函数,网络只能学习其输入的线性组合函数。这个结果被称为
普适逼近定理
西本科定理
,是1989年那位绅士证明的。这是一个很好的开始,它有一个到原始文件的链接(尽管证据有点复杂)。之所以要使用S形函数而不是其他函数,是因为它是连续的、可微的,它的导数计算速度非常快(与tanh的导数相反,tanh的导数具有类似的性质),并且范围有限(从0到1,互斥)

回答得不错,但假设“连续(因此可微)”他站不住脚。例如:abs(x),在零处是连续的,但不可微。维基百科的文章说:Kurt Hornik在1991年指出,这不是激活函数的具体选择,而是多层前馈结构本身,它赋予了神经网络成为通用近似器的潜力。输出单位总是假定为线性的。”事实上,它似乎并没有说需要非线性激活函数。但该定理的形式陈述说的是“非恒定、有界、单调递增的连续函数”“--也许有界和单调的部分意味着非线性?@Desty,线性激活函数将整个网络变成线性分类器(线性函数的线性组合仍然是线性的),这使得隐藏单元变得无用。尽管深度学习的领域已经转向整流单元,但这是相当有趣的,它本质上是一个线性函数。“没有它,网络只能学习其输入的线性组合的函数。”它是什么意思“S形函数”、“非线性”还是“激活函数”?