Optimization 具有非常大的λ;
考虑机器学习中具有正则化的代价函数:Optimization 具有非常大的λ;,optimization,machine-learning,artificial-intelligence,Optimization,Machine Learning,Artificial Intelligence,考虑机器学习中具有正则化的代价函数: 当我们将参数λ设置为非常大时,为什么参数θ会趋于零?正则化成本函数会受到参数θ大小的惩罚 在λ的情况下,正则化项支配成本→ +inf 值得注意的是,当λ非常大时,大部分成本将来自正则化项λ*sum(θ²),而不是实际成本sum((h_θ-y)²),因此在这种情况下,主要是通过将θ趋于0(θ)来最小化正则化项λ*sum(θ²)→ 0) 为什么最小化λ*和(θ²)会导致θ→ 0 考虑正则化项λ*sum(θ²),为了最小化该项,唯一的解决方案是推送sum(θ²)
当我们将参数λ设置为非常大时,为什么参数θ会趋于零?正则化成本函数会受到参数θ大小的惩罚 在
λ的情况下,正则化项支配成本→ +inf
值得注意的是,当λ非常大时,大部分成本将来自正则化项λ*sum(θ²)
,而不是实际成本sum((h_θ-y)²)
,因此在这种情况下,主要是通过将θ趋于0(θ)来最小化正则化项λ*sum(θ²)
→ 0
)
为什么最小化λ*和(θ²)
会导致θ→ 0
考虑正则化项λ*sum(θ²)
,为了最小化该项,唯一的解决方案是推送sum(θ²)→ 0
。(λ
为正常数,和
项也为正)
由于θ
项是平方的(θ²
总是正的),唯一的方法是将θ
参数推向0。因此sum(θ²)→ 0
表示θ→ 0
总之,在λ非常大的情况下:
最小化成本函数主要是最小化λ*sum(θ²)
,这需要最小化sum(θ²)
,这需要θ→ 0
凭直觉回答评论中的问题:
把λ当作一个参数,告诉你你希望发生多少正则化。例如,如果在极端情况下,将λ设置为0,则成本函数根本没有正则化。如果将λ设置为一个较低的数字,则正则化的次数会减少
反之亦然,增加λ越多,就越需要正则化代价函数,因此参数θ越小,以最小化正则化代价函数
为什么在正则化和中使用θ²而不是θ?
因为目标是得到小θ(不太容易过度拟合)。
如果正则化项在和中使用θ而不是θ²,
您可以得到相互抵消的大θ值,
e、 g.θ1=1000000和θ2=-1000001,这里的sum(θ)
是-1,如果你取sum(|θ)
(绝对值)或sum(θ²)
(平方),你会得到一个很大的值
在这种情况下,您可能会因为较大的θ值而结束过度拟合,因为这些项相互抵消,因此没有进行正则化。请注意,求和(λ后)不包括θ(0)。希望这有帮助 大家讨论得很晚,但我刚刚开始学习这门课程,以下是我的理解 基本上,Andrew正试图将一个多项式方程转换为二次方程,通过这样做,他惩罚了几个θ参数,将它们等效为零,从而避免了过度拟合的问题,因为现在你有了一个了解重要特征而忽略了不重要特征的方程 然而,我们也需要调整成本函数。对于过拟合方程,成本值理想情况下为零,这是不正确的。因此,我们正在添加 如果你仔细观察,这是从j到n的另一部分, 从i到n开始 大lambda有什么问题?
使用较大的lambda,成本将爆炸式增长,曲线将不匹配。选择正确的lambda值很重要。若你们碰巧选择了大λ,那个么选择非常非常小的θ也很重要,这样成本函数仍然在控制之中。这是一个问题,我们想在一天结束时增加多少成本来控制λ和θ的值。那么,λ的含义是什么?λ越大,θ越小?但我不知道为什么λ越大,参数θ越小?我希望你能用数学解释。@C.J你必须考虑计算θ的算法(通常是梯度下降)。它反复尝试更小的θ值,直到J(θ)保持不变(当称为收敛时)。如果我们将公式中的项简化为
J(θ)=sum(某物)+λ*sum(θ^2)
,那么很明显,当rλ非常大时,使结果越来越小的唯一方法是使sum(θ^2)
越来越接近0。我假设sum(某物)我得到了它,谢谢你的具体解释,但我想问你的另一个问题,为什么我们使用θ^2作为正则化而不是θ?θ^2确保结果总是积极的你试图最小化代价函数。如果把λ设得很大,左边的项会小得多,实际上会消失(因为右边要大得多)。这就需要最小化方程的右侧,它倾向于将θ设置为尽可能小的解(当总和为平方时,以0为中心),从而使其趋向于0。