Machine learning 什么是Caffe中的“重量衰减”元参数?

Machine learning 什么是Caffe中的“重量衰减”元参数?,machine-learning,neural-network,deep-learning,caffe,gradient-descent,Machine Learning,Neural Network,Deep Learning,Caffe,Gradient Descent,看一个发布在BVLC/caffe git上的示例,其中有一个训练元参数 weight_decay: 0.04 这个元参数意味着什么?我应该给它赋什么值呢?权重衰减是一个惩罚较大权重的正则化项。 当重量衰减系数较大时,大重量的惩罚也较大,当重量较小时,重量可以自由增长 请查看此答案(不针对caffe)以获得更好的解释: .权重衰减元参数控制神经网络的正则化项 在训练过程中,将正则化项添加到网络的损失中,以计算backprop梯度。权重衰减值确定此正则化项在梯度计算中的主导地位 根据经验,你的训练

看一个发布在BVLC/caffe git上的示例,其中有一个训练元参数

weight_decay: 0.04

这个元参数意味着什么?我应该给它赋什么值呢?

权重衰减是一个惩罚较大权重的正则化项。 当重量衰减系数较大时,大重量的惩罚也较大,当重量较小时,重量可以自由增长

请查看此答案(不针对caffe)以获得更好的解释:
.

权重衰减元参数控制神经网络的正则化项

在训练过程中,将正则化项添加到网络的损失中,以计算backprop梯度。
权重衰减
值确定此正则化项在梯度计算中的主导地位

根据经验,你的训练例子越多,这个术语就越弱。您拥有的参数越多(即,网络越深、过滤器越大、内部产品层越大等),该术语应该越高

Caffe还允许您通过设置在
L2
正则化(默认)和
L1
正则化之间进行选择

regularization_type: "L1"

然而,由于在大多数情况下权重都是小数字(即,
-1可能你可以解释你的经验法则背后的原因?你有这方面的来源吗?@Janosch通常需要使用正则化,当数值问题上的参数多于约束时。在学习中,训练示例代表“约束”。因此,如果你的训练示例比自由参数多(很多),你就不必担心过度拟合,你可以减少正则化项。但是,如果你的训练示例很少(与参数数量相比)然后,您的模型容易过度拟合,您需要强正则化项来防止这种情况发生。您必须设置
param{lr_mult:1 detaction_mult:1}
卷积
层中,或者正则化类型是全局的吗?@Shaithe全局的
权重衰减
乘以参数特定的
衰减
@thigit这意味着当参数为
未设置
时,这没有任何影响?默认的
正则化
是哪一个>?你更愿意使用哪一种?我的问题是过度装配->训练损耗低于测试损耗@ShaiI知道你发布这篇文章已经很久了,但是自由增加体重的利弊是什么?