Neural network 为什么动量梯度下降是指数加权平均？_Neural Network_Deep Learning_Mathematical Optimization_Momentum

Neural network 为什么动量梯度下降是指数加权平均？

neural-network deep-learning

Neural network 为什么动量梯度下降是指数加权平均？,neural-network,deep-learning,mathematical-optimization,momentum,Neural Network,Deep Learning,Mathematical Optimization,Momentum,我最近看了。我知道动量项通过加权最后一个梯度并使用V_dw的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外，在Ng 6:37的视频中，他说使用Beta=0.9实际上意味着使用最后10个梯度的平均值。有人能解释一下这是怎么回事吗？对我来说，它只是向量dW中所有梯度的1-0.9的标量权重感谢您的洞察力！我觉得我错过了一些基本的东西。你只需要想想上一个渐变是什么。由于动量项，最后一个梯度已经是加权梯度在第一步中，您将只进行梯度下降。在第二步中，动量梯度为m_grad_2=gr

我最近看了。我知道动量项通过加权最后一个梯度并使用V_dw的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外，在Ng 6:37的视频中，他说使用Beta=0.9实际上意味着使用最后10个梯度的平均值。有人能解释一下这是怎么回事吗？对我来说，它只是向量dW中所有梯度的1-0.9的标量权重

感谢您的洞察力！我觉得我错过了一些基本的东西。

你只需要想想上一个渐变是什么。由于动量项，最后一个梯度已经是加权梯度

在第一步中，您将只进行梯度下降。在第二步中，动量梯度为m_grad_2=grad_2+0.9 m_grad_1。在第三步中，你会得到一个动量梯度m_grad_3=grad_3+0.9 m_grad_2，但是旧的梯度是由动量项组成的。因此，0.9*m_grad_2=0.9*（grad_2+0.9 grad_1），即0.9 grad_2+0.81 grad_1。因此，梯度对第k步的影响为0.9^k。经过10个步骤后，影响将非常小。

这可能更适合感谢您！我将在40分钟内重新发布lol