Machine learning 正则化如何防止过度拟合?

Machine learning 正则化如何防止过度拟合?,machine-learning,math,neural-network,Machine Learning,Math,Neural Network,我不明白在成本函数中加入λ的乘积和θ的平方和如何减少数据集中的过度拟合。有人能解释一下吗?想象两种极端情况: 您不需要学习任何东西==>您需要学习0个参数(欠拟合的极端情况) 你想记住你所看到的一切(在训练集中)==>你需要大量的参数来记住一切(过度拟合的极端情况) 真正的训练应该在这两种情况之间进行,以便得出一个好的概括。良好的泛化有助于对看不见的测试数据进行更真实的预测 当您试图最小化成本函数时,您是在惩罚机器对训练集的每个错误预测。为了克服这种惩罚,而且大多数情况下比实现真正的泛化更容易,

我不明白在成本函数中加入λ的乘积和θ的平方和如何减少数据集中的过度拟合。有人能解释一下吗?

想象两种极端情况:

  • 您不需要学习任何东西==>您需要学习0个参数(欠拟合的极端情况)
  • 你想记住你所看到的一切(在训练集中)==>你需要大量的参数来记住一切(过度拟合的极端情况)
  • 真正的训练应该在这两种情况之间进行,以便得出一个好的概括。良好的泛化有助于对看不见的测试数据进行更真实的预测

    当您试图最小化成本函数时,您是在惩罚机器对训练集的每个错误预测。为了克服这种惩罚,而且大多数情况下比实现真正的泛化更容易,机器更愿意在训练中记住所有内容,以便减少损失,减少惩罚。当您提供一个复杂的网络(具有大量的训练参数,也称为W大时)时,很容易发生这种情况


    为了防止机器出现这种伎俩,我们强迫机器降低成本,但我们也设定了不使用大量参数的条件。这是进行正则化的一种方法。

    好吧,看看平方参数的和,使之最小化的参数就是θ=0。如果你在上面加上一个因子(即λ)并把它加到普通的平方和上,你得到的结果将在0和无约束的最大值之间——λ乘以平方参数之和作为一个惩罚项,将解拉向0。lambda值越大,拉力越大。嗯。顺便说一句,这是一个很好的问题,但适合stats.stackexchange.com。为迟到道歉,但这是一个很好的答案!谢谢你的提示,下次我会先试试stats.stackexchange.com。完美答案!这有助于我更好地理解这个主题。