Deep learning 梯度函数在反向传播中是如何工作的?

Deep learning 梯度函数在反向传播中是如何工作的?,deep-learning,neural-network,gradient-descent,Deep Learning,Neural Network,Gradient Descent,在反向传播中,是否使用梯度w.r.t.层L-1计算损耗梯度w.r.t.层L?或者,是否使用梯度w.r.t层L计算损耗梯度w.r.t层L-1?在反向传播中使用梯度下降函数,以找到调整权重的最佳值。梯度下降有两种常见类型:梯度下降,和随机梯度下降 梯度下降是一个函数,用于确定更改权重的最佳调整值。在每次迭代中,它确定了重量应调整的体积/数量,距离最佳确定重量越远,调整值越大。你可以把它想象成一个从山上滚下来的球;球的速度是调整值,山丘是可能的调整值。基本上,您希望球(调整值)尽可能接近世界底部(可能

在反向传播中,是否使用梯度w.r.t.层L-1计算损耗梯度w.r.t.层L?或者,是否使用梯度w.r.t层L计算损耗梯度w.r.t层L-1?

在反向传播中使用梯度下降函数,以找到调整权重的最佳值。梯度下降有两种常见类型:
梯度下降
,和
随机梯度下降

梯度下降是一个函数,用于确定更改权重的最佳调整值。在每次迭代中,它确定了重量应调整的体积/数量,距离最佳确定重量越远,调整值越大。你可以把它想象成一个从山上滚下来的球;球的速度是调整值,山丘是可能的调整值。基本上,您希望球(调整值)尽可能接近世界底部(可能的调整)。球的速度将增加,直到它到达山丘底部-山丘底部是可能的最佳值。 可以找到一个更实际的解释

随机梯度下降是梯度下降函数的一个更复杂的版本,它被用于可能具有虚假最佳调整值的神经网络中,其中常规梯度下降不会找到最佳值,但它认为的值是最佳值。这可以类比为球从两座山上滚下来,两座山的高度不同。它滚下第一座山,到达第一座山的底部,认为它已经到达了可能的最佳答案,但通过随机梯度下降,它会知道它现在所在的位置不是最佳位置,但实际上是第二座山的底部

左边是梯度下降的输出。 右边是随机梯度下降将发现的(最佳可能值)。 可以找到这种解释的更具描述性和实用性的版本

最后,为了总结我对你问题的回答,在反向传播中,你计算最右边的权重矩阵的梯度,然后相应地调整权重,然后向左移动一层,
L-1
,(在下一个权重矩阵上)并重复该步骤,换句话说,你确定梯度,相应地调整,然后向左移动


我还在另一个问题中详细讨论了这一点,这可能会有所帮助。

谢谢!然而,这个问题的答案是什么->在反向传播中,损耗梯度w.r.t层L是用梯度w.r.t层L-1计算的吗?或者,损耗梯度w.r.t.层L-1是用梯度w.r.t层L计算的吗?@AnubhavSachdev我不完全确定你在问什么?你的意思是,
如何计算损失梯度?
在反向传播过程中,当我们计算任何给定层L的权重矩阵梯度时,过程的顺序是什么?我们是先计算前一层(L-1)的梯度,然后再计算当前层(L)的梯度,还是先计算当前层(L)的梯度,然后再计算前一层(L-1)?因此反向传播的过程顺序如下:首先你像通常一样向前传播你的网络,然后反向传播,这是正向传播的相反方向(向后),所以从右向左。从最后一层开始,找到该层的渐变,并相应地调整权重,然后转到下一层(在本例中为左下一层)并重复,因此是的。计算当前层的渐变,调整权重,然后移动到当前层之前的层(
L-1
)。我会把这个包括在我的answer@AnubhavSachdev我希望我回答了你的问题,如果你对我的回答感到满意,请投我的票并接受它!