Neural network 为什么l2正则化总是一个加法?
我正在阅读有关神经网络权重的l2正则化的信息。据我所知,其目的是重量越大,重量就被推向零,即重量越大,惩罚越重,而重量越低,惩罚越轻 公式通常为:Neural network 为什么l2正则化总是一个加法?,neural-network,backpropagation,weighted-average,Neural Network,Backpropagation,Weighted Average,我正在阅读有关神经网络权重的l2正则化的信息。据我所知,其目的是重量越大,重量就被推向零,即重量越大,惩罚越重,而重量越低,惩罚越轻 公式通常为: new_weight = weight * update + lambda * sum(squared(weights)) 我的问题:为什么这总是积极的?如果权重已经为正,l2将永远不会减少它,但会使情况变得更糟,并将权重推离零。到目前为止,我看到的几乎所有公式都是这样,为什么会这样?您介绍的公式对于什么是“更新”非常模糊 首先,什么是正规化?一般
new_weight = weight * update + lambda * sum(squared(weights))
我的问题:为什么这总是积极的?如果权重已经为正,l2将永远不会减少它,但会使情况变得更糟,并将权重推离零。到目前为止,我看到的几乎所有公式都是这样,为什么会这样?您介绍的公式对于什么是“更新”非常模糊 首先,什么是正规化?一般来说,L2正则化的公式为: (n是训练集大小,λ表示L2项的影响) 在原始成本函数中添加一个额外的项,该项也将部分用于权重更新。直观地说,这会惩罚较大的权重,因此该算法试图在较小权重和所选成本函数之间找到最佳折衷。小权重与寻找更简单的模型相关,因为当给定一些随机的外围值时,网络的行为不会发生太大变化。这意味着它会过滤掉数据中的噪声,并最终学习最简单的解决方案。换句话说,它减少了过度装配 针对您的问题,让我们推导更新规则。对于图中的任何权重,我们得到 因此,权重的更新公式可以写成(eta是学习率) 仅考虑第一项,无论发生什么情况,权重似乎都被推向零。但如果偏导数为负,则第二项可以增加权重。总之,权重可以是正的,也可以是负的,因为不能从该表达式派生约束。这同样适用于衍生品。考虑用负斜率拟合直线:权重必须为负。为了回答你的问题,正则化成本的导数和权重都不必始终为正
如果您需要更多的澄清,请留下评论。您提出的公式对于什么是“更新”非常模糊 首先,什么是正规化?一般来说,L2正则化的公式为: (n是训练集大小,λ表示L2项的影响) 在原始成本函数中添加一个额外的项,该项也将部分用于权重更新。直观地说,这会惩罚较大的权重,因此该算法试图在较小权重和所选成本函数之间找到最佳折衷。小权重与寻找更简单的模型相关,因为当给定一些随机的外围值时,网络的行为不会发生太大变化。这意味着它会过滤掉数据中的噪声,并最终学习最简单的解决方案。换句话说,它减少了过度装配 针对您的问题,让我们推导更新规则。对于图中的任何权重,我们得到 因此,权重的更新公式可以写成(eta是学习率) 仅考虑第一项,无论发生什么情况,权重似乎都被推向零。但如果偏导数为负,则第二项可以增加权重。总之,权重可以是正的,也可以是负的,因为不能从该表达式派生约束。这同样适用于衍生品。考虑用负斜率拟合直线:权重必须为负。为了回答你的问题,正则化成本的导数和权重都不必始终为正 如果你需要更多的澄清,请留下评论