Machine learning 反向传播与Levenberg-Marquardt

Machine learning 反向传播与Levenberg-Marquardt,machine-learning,backpropagation,levenberg-marquardt,Machine Learning,Backpropagation,Levenberg Marquardt,有人知道反向传播和Levenberg–Marquardt在神经网络训练中的区别吗?有时我看到LM被认为是一种BP算法,有时我看到的恰恰相反。 我们将非常感谢你的帮助 谢谢。这是两个完全无关的概念 Levenberg-Marquardt(LM)是一种优化方法,而backprop只是衍生工具链规则的递归应用 LM直观地做的是:当它远离局部极小值时,它忽略损失的曲率,并充当梯度下降。然而,当它越来越接近局部极小值时,它通过从梯度下降切换到高斯-牛顿方法,越来越关注曲率 LM方法需要梯度和Hessian

有人知道反向传播和Levenberg–Marquardt在神经网络训练中的区别吗?有时我看到LM被认为是一种BP算法,有时我看到的恰恰相反。 我们将非常感谢你的帮助


谢谢。

这是两个完全无关的概念

Levenberg-Marquardt(LM)是一种优化方法,而backprop只是衍生工具链规则的递归应用

LM直观地做的是:当它远离局部极小值时,它忽略损失的曲率,并充当梯度下降。然而,当它越来越接近局部极小值时,它通过从梯度下降切换到高斯-牛顿方法,越来越关注曲率

LM方法需要梯度和Hessian(因为它解决了
(H+coeff*恒等式)的变体)dx=-g
分别带有
H,g
的Hessian和梯度。您可以通过反向传播获得梯度。对于Hessian,它通常不那么简单,尽管在最小二乘法中可以近似为
2gg^T
,这意味着在这种情况下,您也可以在初始反向传播结束时轻松获得梯度

对于神经网络来说,LM通常不是很有用,因为你无法构造如此巨大的Hessian,即使你这样做了,它也缺乏有效反转它所需的稀疏结构