Machine learning 理解正则化的更简单/替代方法

Machine learning 理解正则化的更简单/替代方法,machine-learning,Machine Learning,我正在读关于正规化的书,我不明白我应该如何将这个特殊的概念与惩罚联系起来 上面介绍的损失函数有一个bug。假设我们有一个数据集和一组参数W,可以正确地对每个示例进行分类(即,所有分数都满足所有边距,所有i的Li=0Li=0)。问题是这组W不一定是唯一的:可能有许多相似的W可以正确地对示例进行分类。一个简单的方法是,如果一些参数W正确地对所有示例进行分类(因此每个示例的损失为零),那么这些参数λW的任意倍数(其中λ>1)也将给出零损失,因为此转换均匀地拉伸了所有分数量级,因此也拉伸了它们的绝对差异

我正在读关于正规化的书,我不明白我应该如何将这个特殊的概念与惩罚联系起来

上面介绍的损失函数有一个bug。假设我们有一个数据集和一组参数W,可以正确地对每个示例进行分类(即,所有分数都满足所有边距,所有i的Li=0Li=0)。问题是这组W不一定是唯一的:可能有许多相似的W可以正确地对示例进行分类。一个简单的方法是,如果一些参数W正确地对所有示例进行分类(因此每个示例的损失为零),那么这些参数λW的任意倍数(其中λ>1)也将给出零损失,因为此转换均匀地拉伸了所有分数量级,因此也拉伸了它们的绝对差异

我猜我可以把它想象成在2D中乘以一个直线方程的系数,然后满足这个方程,尽管系数被乘以了。还是有更好的方式来思考

例如,如果一个正确的班级和一个最近的错误班级之间的分数差是15,那么将W的所有元素乘以2将得到新的差值30

换句话说,我们希望编码对某一组权重W的偏好,以消除这种模糊性。>

我不明白这种说法。我是否正确地理解了一组独特的权重/参数是可取的(但为什么?)

我们可以通过使用正则化惩罚R(W)扩展损失函数来实现这一点。最常见的正则化惩罚是L2范数,它通过对所有参数的元素二次惩罚来阻止大权重:

$R(W)$=$\sum_k\sum_l W_{k,l}^2$


为什么不鼓励使用大权重?

你的想法完全正确:如果我们有一组等价的方程来解决这个问题,我们通常需要系数最小的方程

y = x1 + 3 * x2 - 2 * x3
优先于

y = 10 * x1 + 30 * x2 - 20 * x3
即使是softmax或其他自然缩放也可以轻松处理差异

这在实践中具有多种优势。较小的数字溢出的可能性较小。解决方案搜索不会遇到非常大或非常小的值。非线性关系保持在合理范围内,保持计算精度——这在训练初始搜索收敛区域时尤为重要


这有帮助吗?

正则化的另一个重要优点(除了great Prune的解释外)是它减少了模型/假设的过度拟合。使用正则化代价函数训练的模型在训练集上的性能较差,但在训练集以外的值上的泛化效果更好