Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Optimization 具有非常大的λ;_Optimization_Machine Learning_Artificial Intelligence - Fatal编程技术网

Optimization 具有非常大的λ;

Optimization 具有非常大的λ;,optimization,machine-learning,artificial-intelligence,Optimization,Machine Learning,Artificial Intelligence,考虑机器学习中具有正则化的代价函数: 当我们将参数λ设置为非常大时,为什么参数θ会趋于零?正则化成本函数会受到参数θ大小的惩罚 在λ的情况下,正则化项支配成本→ +inf 值得注意的是,当λ非常大时,大部分成本将来自正则化项λ*sum(θ²),而不是实际成本sum((h_θ-y)²),因此在这种情况下,主要是通过将θ趋于0(θ)来最小化正则化项λ*sum(θ²)→ 0) 为什么最小化λ*和(θ²)会导致θ→ 0 考虑正则化项λ*sum(θ²),为了最小化该项,唯一的解决方案是推送sum(θ²)

考虑机器学习中具有正则化的代价函数:


当我们将参数λ设置为非常大时,为什么参数θ会趋于零?

正则化成本函数会受到参数θ大小的惩罚

λ的情况下,正则化项支配成本→ +inf

值得注意的是,当λ非常大时,大部分成本将来自正则化项
λ*sum(θ²)
,而不是实际成本
sum((h_θ-y)²)
,因此在这种情况下,主要是通过将θ趋于0(
θ)来最小化正则化项
λ*sum(θ²)
→ 0

为什么最小化
λ*和(θ²)
会导致
θ→ 0

考虑正则化项
λ*sum(θ²)
,为了最小化该项,唯一的解决方案是推送
sum(θ²)→ 0
。(
λ
为正常数,
项也为正)

由于
θ
项是平方的(
θ²
总是正的),唯一的方法是将
θ
参数推向0。因此
sum(θ²)→ 0
表示
θ→ 0

总之,在λ非常大的情况下:

最小化成本函数主要是最小化
λ*sum(θ²)
,这需要最小化
sum(θ²)
,这需要
θ→ 0

凭直觉回答评论中的问题:

把λ当作一个参数,告诉你你希望发生多少正则化。例如,如果在极端情况下,将λ设置为0,则成本函数根本没有正则化。如果将λ设置为一个较低的数字,则正则化的次数会减少

反之亦然,增加λ越多,就越需要正则化代价函数,因此参数θ越小,以最小化正则化代价函数

为什么在正则化和中使用θ²而不是θ?

因为目标是得到小θ(不太容易过度拟合)。 如果正则化项在和中使用θ而不是θ², 您可以得到相互抵消的大θ值, e、 g.θ1=1000000和θ2=-1000001,这里的
sum(θ)
是-1,如果你取
sum(|θ)
(绝对值)或
sum(θ²)
(平方),你会得到一个很大的值


在这种情况下,您可能会因为较大的θ值而结束过度拟合,因为这些项相互抵消,因此没有进行正则化。

请注意,求和(λ后)不包括θ(0)。希望这有帮助

大家讨论得很晚,但我刚刚开始学习这门课程,以下是我的理解

基本上,Andrew正试图将一个多项式方程转换为二次方程,通过这样做,他惩罚了几个θ参数,将它们等效为零,从而避免了过度拟合的问题,因为现在你有了一个了解重要特征而忽略了不重要特征的方程

然而,我们也需要调整成本函数。对于过拟合方程,成本值理想情况下为零,这是不正确的。因此,我们正在添加

如果你仔细观察,这是从j到n的另一部分,

从i到n开始

大lambda有什么问题?


使用较大的lambda,成本将爆炸式增长,曲线将不匹配。选择正确的lambda值很重要。若你们碰巧选择了大λ,那个么选择非常非常小的θ也很重要,这样成本函数仍然在控制之中。这是一个问题,我们想在一天结束时增加多少成本来控制λ和θ的值。

那么,λ的含义是什么?λ越大,θ越小?但我不知道为什么λ越大,参数θ越小?我希望你能用数学解释。@C.J你必须考虑计算θ的算法(通常是梯度下降)。它反复尝试更小的θ值,直到J(θ)保持不变(当称为收敛时)。如果我们将公式中的项简化为
J(θ)=sum(某物)+λ*sum(θ^2)
,那么很明显,当rλ非常大时,使结果越来越小的唯一方法是使
sum(θ^2)
越来越接近0。我假设
sum(某物)我得到了它,谢谢你的具体解释,但我想问你的另一个问题,为什么我们使用θ^2作为正则化而不是θ?θ^2确保结果总是积极的你试图最小化代价函数。如果把λ设得很大,左边的项会小得多,实际上会消失(因为右边要大得多)。这就需要最小化方程的右侧,它倾向于将θ设置为尽可能小的解(当总和为平方时,以0为中心),从而使其趋向于0。