Optimization 具有非常大的λ；_Optimization_Machine Learning_Artificial Intelligence

Optimization 具有非常大的λ；

optimization machine-learning artificial-intelligence

Optimization 具有非常大的λ；,optimization,machine-learning,artificial-intelligence,Optimization,Machine Learning,Artificial Intelligence,考虑机器学习中具有正则化的代价函数：当我们将参数λ设置为非常大时，为什么参数θ会趋于零？正则化成本函数会受到参数θ大小的惩罚在λ的情况下，正则化项支配成本→ +inf 值得注意的是，当λ非常大时，大部分成本将来自正则化项λ*sum（θ²），而不是实际成本sum（（h_θ-y）²），因此在这种情况下，主要是通过将θ趋于0（θ）来最小化正则化项λ*sum（θ²）→ 0）为什么最小化λ*和（θ²）会导致θ→ 0 考虑正则化项λ*sum（θ²），为了最小化该项，唯一的解决方案是推送sum（θ²）

考虑机器学习中具有正则化的代价函数：

当我们将参数λ设置为非常大时，为什么参数θ会趋于零？

正则化成本函数会受到参数θ大小的惩罚

在
λ的情况下，正则化项支配成本→ +inf

值得注意的是，当λ非常大时，大部分成本将来自正则化项

λ*sum（θ²）

，而不是实际成本

sum（（h_θ-y）²）

，因此在这种情况下，主要是通过将θ趋于0（

θ）来最小化正则化项λ*sum（θ²）
→ 0

）

为什么最小化
λ*和（θ²）
会导致
θ→ 0

考虑正则化项

λ*sum（θ²）

，为了最小化该项，唯一的解决方案是推送

sum（θ²）→ 0

。（

λ

为正常数，

和

项也为正）

由于

θ

项是平方的（

θ²

总是正的），唯一的方法是将

θ

参数推向0。因此

sum（θ²）→ 0

表示

θ→ 0

总之，在λ非常大的情况下：

最小化成本函数主要是最小化

λ*sum（θ²）

，这需要最小化

sum（θ²）

，这需要

θ→ 0

凭直觉回答评论中的问题：

把λ当作一个参数，告诉你你希望发生多少正则化。例如，如果在极端情况下，将λ设置为0，则成本函数根本没有正则化。如果将λ设置为一个较低的数字，则正则化的次数会减少

反之亦然，增加λ越多，就越需要正则化代价函数，因此参数θ越小，以最小化正则化代价函数

为什么在正则化和中使用θ²而不是θ？

因为目标是得到小θ（不太容易过度拟合）。如果正则化项在和中使用θ而不是θ²，您可以得到相互抵消的大θ值， e、 g.θ1=1000000和θ2=-1000001，这里的

sum（θ）

是-1，如果你取

sum（|θ）

（绝对值）或

sum（θ²）

（平方），你会得到一个很大的值

在这种情况下，您可能会因为较大的θ值而结束过度拟合，因为这些项相互抵消，因此没有进行正则化。

请注意，求和（λ后）不包括θ（0）。希望这有帮助

大家讨论得很晚，但我刚刚开始学习这门课程，以下是我的理解

基本上，Andrew正试图将一个多项式方程转换为二次方程，通过这样做，他惩罚了几个θ参数，将它们等效为零，从而避免了过度拟合的问题，因为现在你有了一个了解重要特征而忽略了不重要特征的方程

然而，我们也需要调整成本函数。对于过拟合方程，成本值理想情况下为零，这是不正确的。因此，我们正在添加

如果你仔细观察，这是从j到n的另一部分，

从i到n开始

大lambda有什么问题？

使用较大的lambda，成本将爆炸式增长，曲线将不匹配。选择正确的lambda值很重要。若你们碰巧选择了大λ，那个么选择非常非常小的θ也很重要，这样成本函数仍然在控制之中。这是一个问题，我们想在一天结束时增加多少成本来控制λ和θ的值。

那么，λ的含义是什么？λ越大，θ越小？但我不知道为什么λ越大，参数θ越小？我希望你能用数学解释。@C.J你必须考虑计算θ的算法（通常是梯度下降）。它反复尝试更小的θ值，直到J（θ）保持不变（当称为收敛时）。如果我们将公式中的项简化为

J（θ）=sum（某物）+λ*sum（θ^2）

，那么很明显，当rλ非常大时，使结果越来越小的唯一方法是使

sum（θ^2）

越来越接近0。我假设

sum（某物）我得到了它，谢谢你的具体解释，但我想问你的另一个问题，为什么我们使用θ^2作为正则化而不是θ？θ^2确保结果总是积极的你试图最小化代价函数。如果把λ设得很大，左边的项会小得多，实际上会消失（因为右边要大得多）。这就需要最小化方程的右侧，它倾向于将θ设置为尽可能小的解（当总和为平方时，以0为中心），从而使其趋向于0。