Neural network DNN训练的Hessian自由优化与梯度下降_Neural Network_Mathematical Optimization_Deep Learning_Gradient Descent_Hessian Matrix

Neural network DNN训练的Hessian自由优化与梯度下降

neural-network deep-learning

Neural network DNN训练的Hessian自由优化与梯度下降,neural-network,mathematical-optimization,deep-learning,gradient-descent,hessian-matrix,Neural Network,Mathematical Optimization,Deep Learning,Gradient Descent,Hessian Matrix,无黑森（HF）优化技术与梯度下降技术（例如随机梯度下降（SGD）、批量梯度下降、自适应梯度下降）相比，用于训练深度神经网络（DNN）的优化技术如何在什么情况下，人们应该选择HF技术而不是梯度下降技术？简而言之，HFO是一种避免因（天真地）在深网中使用反向传播而导致的梯度消失问题的方法。然而，深度学习是为了避免这个问题，调整学习和/或架构，因此最终要归结为每个特定网络模型（和策略，如预调整）和HFO之间的特定比较。最近有很多关于这个主题的研究，但还没有完全探讨。在某些情况下，它的性能更好，但在某

无黑森（HF）优化技术与梯度下降技术（例如随机梯度下降（SGD）、批量梯度下降、自适应梯度下降）相比，用于训练深度神经网络（DNN）的优化技术如何

在什么情况下，人们应该选择HF技术而不是梯度下降技术？

简而言之，HFO是一种避免因（天真地）在深网中使用反向传播而导致的梯度消失问题的方法。然而，深度学习是为了避免这个问题，调整学习和/或架构，因此最终要归结为每个特定网络模型（和策略，如预调整）和HFO之间的特定比较。最近有很多关于这个主题的研究，但还没有完全探讨。在某些情况下，它的性能更好，但在某些情况下却没有。Afaik（可能很快就会过时）基于Elman的RNN（而不是LSTM）从中受益最多

Tl；博士：SGD仍然是goto方法，尽管有缺陷。直到有人找到更好的非SGD学习方式。HFO是许多人的建议之一，但还没有发现它是最先进的。

我认为如果有人知道这两种方法的区别，那么知道何时何地使用每种方法会有所帮助。我试图阐明一些概念

梯度下降法是一种一阶优化方法，已被广泛应用用于神经网络的训练，自二阶方法，如牛顿的方法在计算上是不可行的。然而，二阶方法比一阶方法表现出更好的收敛特性，因为它们还考虑了误差空间的曲率

另外,，一阶方法需要大量调整递减参数，这是特定于应用程序。他们也有陷入局部最优的倾向并表现出缓慢的收敛

牛顿法不可行的原因是计算 Hessian矩阵，耗时太长。为了克服这一问题，提出了一种“无黑森”学习方法，即使用牛顿法而不直接计算黑森矩阵

我不想深入讨论更多细节，但据我所知，对于深度网络，强烈建议使用HF优化（与HF方法相比也有很多改进），因为它花费的培训时间要少得多，或者使用具有动量的SGD