Neural network 为什么l2正则化总是一个加法？_Neural Network_Backpropagation_Weighted Average

Neural network 为什么l2正则化总是一个加法？

neural-network

Neural network 为什么l2正则化总是一个加法？,neural-network,backpropagation,weighted-average,Neural Network,Backpropagation,Weighted Average,我正在阅读有关神经网络权重的l2正则化的信息。据我所知，其目的是重量越大，重量就被推向零，即重量越大，惩罚越重，而重量越低，惩罚越轻公式通常为： new_weight = weight * update + lambda * sum(squared(weights)) 我的问题：为什么这总是积极的？如果权重已经为正，l2将永远不会减少它，但会使情况变得更糟，并将权重推离零。到目前为止，我看到的几乎所有公式都是这样，为什么会这样？您介绍的公式对于什么是“更新”非常模糊首先，什么是正规化？一般

我正在阅读有关神经网络权重的l2正则化的信息。据我所知，其目的是重量越大，重量就被推向零，即重量越大，惩罚越重，而重量越低，惩罚越轻

公式通常为：

new_weight = weight * update + lambda * sum(squared(weights))

我的问题：为什么这总是积极的？如果权重已经为正，l2将永远不会减少它，但会使情况变得更糟，并将权重推离零。到目前为止，我看到的几乎所有公式都是这样，为什么会这样？

您介绍的公式对于什么是“更新”非常模糊

首先，什么是正规化？一般来说，L2正则化的公式为：

（n是训练集大小，λ表示L2项的影响）

在原始成本函数中添加一个额外的项，该项也将部分用于权重更新。直观地说，这会惩罚较大的权重，因此该算法试图在较小权重和所选成本函数之间找到最佳折衷。小权重与寻找更简单的模型相关，因为当给定一些随机的外围值时，网络的行为不会发生太大变化。这意味着它会过滤掉数据中的噪声，并最终学习最简单的解决方案。换句话说，它减少了过度装配

针对您的问题，让我们推导更新规则。对于图中的任何权重，我们得到

因此，权重的更新公式可以写成（eta是学习率）

仅考虑第一项，无论发生什么情况，权重似乎都被推向零。但如果偏导数为负，则第二项可以增加权重。总之，权重可以是正的，也可以是负的，因为不能从该表达式派生约束。这同样适用于衍生品。考虑用负斜率拟合直线：权重必须为负。为了回答你的问题，正则化成本的导数和权重都不必始终为正

如果您需要更多的澄清，请留下评论。

您提出的公式对于什么是“更新”非常模糊

首先，什么是正规化？一般来说，L2正则化的公式为：

（n是训练集大小，λ表示L2项的影响）

针对您的问题，让我们推导更新规则。对于图中的任何权重，我们得到

因此，权重的更新公式可以写成（eta是学习率）

如果你需要更多的澄清，请留下评论