Machine learning 神经网络输入标准化的好处是什么?

Machine learning 神经网络输入标准化的好处是什么?,machine-learning,neural-network,data-science,normalization,Machine Learning,Neural Network,Data Science,Normalization,神经网络输入标准化的好处是什么 我注意到它降低了梯度,但我不确定它是否真的能带来好的结果。中对此进行了解释 如果输入变量是线性组合的,如在MLP中,则很少严格需要标准化输入,至少在理论上是这样。原因是,通过更改相应的权重和偏差,可以有效地撤消输入向量的任何重缩放,从而使您获得与以前完全相同的输出。然而,标准化输入可以加快训练速度并减少陷入局部最优的机会,这有多种实际原因。此外,使用标准化输入可以更方便地进行权重衰减和贝叶斯估计 特征缩放使所有特征在梯度下降过程中的贡献相等,从而加快优化速度 如果

神经网络输入标准化的好处是什么

我注意到它降低了梯度,但我不确定它是否真的能带来好的结果。

中对此进行了解释

如果输入变量是线性组合的,如在MLP中,则很少严格需要标准化输入,至少在理论上是这样。原因是,通过更改相应的权重和偏差,可以有效地撤消输入向量的任何重缩放,从而使您获得与以前完全相同的输出。然而,标准化输入可以加快训练速度并减少陷入局部最优的机会,这有多种实际原因。此外,使用标准化输入可以更方便地进行权重衰减和贝叶斯估计


特征缩放使所有特征在梯度下降过程中的贡献相等,从而加快优化速度

如果你想象一个有两个变量的机器学习问题,一个在10的尺度上,另一个在1000000的尺度上,梯度下降会认为几乎所有的误差都在第二个特征上,即使两个特征的相对误差相似

你可以想象上述情况下的误差面是一条细长的沟壑,如果我们同等重视两个正交方向,就很难找到这样一条沟壑的确切底部

特征缩放迫使沟壑变成一个漂亮的圆形碗,由于优化算法不会被任何巨大的压倒性特征分散注意力,因此更容易收敛到准确的底部

还要记住,特征缩放不会改变特征空间中最佳点的相对位置。以线性回归为例,如果一个特征按常数c缩放,该特征的权重将经历相反的变换,最终给出相同的答案

w = inv(X'*X)*X'*y
现在尝试用重新缩放版本QC替换特征X,其中C是对角列缩放矩阵

w = inv(C'*Q'*Q*C)*C'*Q'*y
w = inv(C)*inv(Q'*Q)*inv(C')*C'*Q'*y
Cw = inv(Q'*Q)*Q'*y

因此,使用新的缩放功能Q=X*invC将使用相同的解决方案y为我们提供新的权重u=Cw。

我只是对您共享的链接有一个问题,我无法对Yura Zaletskyy提出的图表解释发表评论,只是想知道为什么权重的最后一个轴,水平的更好?这能回答你的问题吗?