Machine learning 什么是Caffe中的“重量衰减”元参数？_Machine Learning_Neural Network_Deep Learning_Caffe_Gradient Descent

Machine learning 什么是Caffe中的“重量衰减”元参数？

machine-learning neural-network deep-learning

Machine learning 什么是Caffe中的“重量衰减”元参数？,machine-learning,neural-network,deep-learning,caffe,gradient-descent,Machine Learning,Neural Network,Deep Learning,Caffe,Gradient Descent,看一个发布在BVLC/caffe git上的示例，其中有一个训练元参数 weight_decay: 0.04 这个元参数意味着什么？我应该给它赋什么值呢？权重衰减是一个惩罚较大权重的正则化项。当重量衰减系数较大时，大重量的惩罚也较大，当重量较小时，重量可以自由增长请查看此答案（不针对caffe）以获得更好的解释： .权重衰减元参数控制神经网络的正则化项在训练过程中，将正则化项添加到网络的损失中，以计算backprop梯度。权重衰减值确定此正则化项在梯度计算中的主导地位根据经验，你的训练

看一个发布在BVLC/caffe git上的示例，其中有一个训练元参数

weight_decay: 0.04

这个元参数意味着什么？我应该给它赋什么值呢？

权重衰减是一个惩罚较大权重的正则化项。当重量衰减系数较大时，大重量的惩罚也较大，当重量较小时，重量可以自由增长

请查看此答案（不针对caffe）以获得更好的解释：

权重衰减元参数控制神经网络的正则化项

在训练过程中，将正则化项添加到网络的损失中，以计算backprop梯度。

权重衰减

值确定此正则化项在梯度计算中的主导地位

根据经验，你的训练例子越多，这个术语就越弱。您拥有的参数越多（即，网络越深、过滤器越大、内部产品层越大等），该术语应该越高

Caffe还允许您通过设置在

L2

正则化（默认）和

L1

正则化之间进行选择

regularization_type: "L1"

然而，由于在大多数情况下权重都是小数字（即，

-1可能你可以解释你的经验法则背后的原因？你有这方面的来源吗？@Janosch通常需要使用正则化，当数值问题上的参数多于约束时。在学习中，训练示例代表“约束”。因此，如果你的训练示例比自由参数多（很多），你就不必担心过度拟合，你可以减少正则化项。但是，如果你的训练示例很少（与参数数量相比）然后，您的模型容易过度拟合，您需要强正则化项来防止这种情况发生。您必须设置param{lr_mult:1 detaction_mult:1}
在卷积
层中，或者正则化类型是全局的吗？@Shaithe全局的权重衰减
乘以参数特定的衰减
@thigit这意味着当参数为未设置
或零
时，这没有任何影响？默认的正则化
是哪一个>？你更愿意使用哪一种？我的问题是过度装配->训练损耗低于测试损耗@ShaiI知道你发布这篇文章已经很久了，但是自由增加体重的利弊是什么？