Machine learning 理解正则化的更简单/替代方法_Machine Learning

Machine learning 理解正则化的更简单/替代方法

machine-learning

Machine learning 理解正则化的更简单/替代方法,machine-learning,Machine Learning,我正在读关于正规化的书，我不明白我应该如何将这个特殊的概念与惩罚联系起来上面介绍的损失函数有一个bug。假设我们有一个数据集和一组参数W，可以正确地对每个示例进行分类（即，所有分数都满足所有边距，所有i的Li=0Li=0）。问题是这组W不一定是唯一的：可能有许多相似的W可以正确地对示例进行分类。一个简单的方法是，如果一些参数W正确地对所有示例进行分类（因此每个示例的损失为零），那么这些参数λW的任意倍数（其中λ>1）也将给出零损失，因为此转换均匀地拉伸了所有分数量级，因此也拉伸了它们的绝对差异

我正在读关于正规化的书，我不明白我应该如何将这个特殊的概念与惩罚联系起来

上面介绍的损失函数有一个bug。假设我们有一个数据集和一组参数W，可以正确地对每个示例进行分类（即，所有分数都满足所有边距，所有i的Li=0Li=0）。问题是这组W不一定是唯一的：可能有许多相似的W可以正确地对示例进行分类。一个简单的方法是，如果一些参数W正确地对所有示例进行分类（因此每个示例的损失为零），那么这些参数λW的任意倍数（其中λ>1）也将给出零损失，因为此转换均匀地拉伸了所有分数量级，因此也拉伸了它们的绝对差异

我猜我可以把它想象成在2D中乘以一个直线方程的系数，然后满足这个方程，尽管系数被乘以了。还是有更好的方式来思考

例如，如果一个正确的班级和一个最近的错误班级之间的分数差是15，那么将W的所有元素乘以2将得到新的差值30

换句话说，我们希望编码对某一组权重W的偏好，以消除这种模糊性。>

我不明白这种说法。我是否正确地理解了一组独特的权重/参数是可取的（但为什么？）

我们可以通过使用正则化惩罚R（W）扩展损失函数来实现这一点。最常见的正则化惩罚是L2范数，它通过对所有参数的元素二次惩罚来阻止大权重：

$R（W）$=$\sum_k\sum_l W_{k，l}^2$

为什么不鼓励使用大权重？

你的想法完全正确：如果我们有一组等价的方程来解决这个问题，我们通常需要系数最小的方程

y = x1 + 3 * x2 - 2 * x3

优先于

y = 10 * x1 + 30 * x2 - 20 * x3

即使是softmax或其他自然缩放也可以轻松处理差异

这在实践中具有多种优势。较小的数字溢出的可能性较小。解决方案搜索不会遇到非常大或非常小的值。非线性关系保持在合理范围内，保持计算精度——这在训练初始搜索收敛区域时尤为重要

这有帮助吗？

正则化的另一个重要优点（除了great Prune的解释外）是它减少了模型/假设的过度拟合。使用正则化代价函数训练的模型在训练集上的性能较差，但在训练集以外的值上的泛化效果更好