Neural network 为什么动量梯度下降是指数加权平均?

Neural network 为什么动量梯度下降是指数加权平均?,neural-network,deep-learning,mathematical-optimization,momentum,Neural Network,Deep Learning,Mathematical Optimization,Momentum,我最近看了。我知道动量项通过加权最后一个梯度并使用V_dw的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外,在Ng 6:37的视频中,他说使用Beta=0.9实际上意味着使用最后10个梯度的平均值。 有人能解释一下这是怎么回事吗?对我来说,它只是向量dW中所有梯度的1-0.9的标量权重 感谢您的洞察力!我觉得我错过了一些基本的东西。 你只需要想想上一个渐变是什么。由于动量项,最后一个梯度已经是加权梯度 在第一步中,您将只进行梯度下降。在第二步中,动量梯度为m_grad_2=gr

我最近看了。我知道动量项通过加权最后一个梯度并使用V_dw的一小部分来更新梯度。我不明白为什么动量也被称为指数加权平均。此外,在Ng 6:37的视频中,他说使用Beta=0.9实际上意味着使用最后10个梯度的平均值。 有人能解释一下这是怎么回事吗?对我来说,它只是向量dW中所有梯度的1-0.9的标量权重

感谢您的洞察力!我觉得我错过了一些基本的东西。

你只需要想想上一个渐变是什么。由于动量项,最后一个梯度已经是加权梯度


在第一步中,您将只进行梯度下降。在第二步中,动量梯度为m_grad_2=grad_2+0.9 m_grad_1。在第三步中,你会得到一个动量梯度m_grad_3=grad_3+0.9 m_grad_2,但是旧的梯度是由动量项组成的。因此,0.9*m_grad_2=0.9*(grad_2+0.9 grad_1),即0.9 grad_2+0.81 grad_1。因此,梯度对第k步的影响为0.9^k。经过10个步骤后,影响将非常小。

这可能更适合感谢您!我将在40分钟内重新发布lol