Neural network DNN训练的Hessian自由优化与梯度下降

Neural network DNN训练的Hessian自由优化与梯度下降,neural-network,mathematical-optimization,deep-learning,gradient-descent,hessian-matrix,Neural Network,Mathematical Optimization,Deep Learning,Gradient Descent,Hessian Matrix,无黑森(HF)优化技术与梯度下降技术(例如随机梯度下降(SGD)、批量梯度下降、自适应梯度下降)相比,用于训练深度神经网络(DNN)的优化技术如何 在什么情况下,人们应该选择HF技术而不是梯度下降技术?简而言之,HFO是一种避免因(天真地)在深网中使用反向传播而导致的梯度消失问题的方法。然而,深度学习是为了避免这个问题,调整学习和/或架构,因此最终要归结为每个特定网络模型(和策略,如预调整)和HFO之间的特定比较。最近有很多关于这个主题的研究,但还没有完全探讨。在某些情况下,它的性能更好,但在某

无黑森(HF)优化技术与梯度下降技术(例如随机梯度下降(SGD)、批量梯度下降、自适应梯度下降)相比,用于训练深度神经网络(DNN)的优化技术如何


在什么情况下,人们应该选择HF技术而不是梯度下降技术?

简而言之,HFO是一种避免因(天真地)在深网中使用反向传播而导致的梯度消失问题的方法。然而,深度学习是为了避免这个问题,调整学习和/或架构,因此最终要归结为每个特定网络模型(和策略,如预调整)和HFO之间的特定比较。最近有很多关于这个主题的研究,但还没有完全探讨。在某些情况下,它的性能更好,但在某些情况下却没有。Afaik(可能很快就会过时)基于Elman的RNN(而不是LSTM)从中受益最多


Tl;博士:SGD仍然是goto方法,尽管有缺陷。直到有人找到更好的非SGD学习方式。HFO是许多人的建议之一,但还没有发现它是最先进的。

我认为如果有人知道这两种方法的区别,那么知道何时何地使用每种方法会有所帮助。我试图阐明一些概念

梯度下降法是一种一阶优化方法,已被广泛应用 用于神经网络的训练,自二阶方法,如 牛顿的方法在计算上是不可行的。然而,二阶方法比一阶方法表现出更好的收敛特性,因为它们还考虑了误差空间的曲率

另外,, 一阶方法需要大量调整递减参数,这是 特定于应用程序。他们也有陷入局部最优的倾向 并表现出缓慢的收敛

牛顿法不可行的原因是计算 Hessian矩阵,耗时太长。为了克服这一问题,提出了一种“无黑森”学习方法,即使用牛顿法而不直接计算黑森矩阵

我不想深入讨论更多细节,但据我所知,对于深度网络,强烈建议使用HF优化(与HF方法相比也有很多改进),因为它花费的培训时间要少得多,或者使用具有动量的SGD