Deep learning 梯度函数在反向传播中是如何工作的？_Deep Learning_Neural Network_Gradient Descent

Deep learning 梯度函数在反向传播中是如何工作的？

deep-learning neural-network

Deep learning 梯度函数在反向传播中是如何工作的？,deep-learning,neural-network,gradient-descent,Deep Learning,Neural Network,Gradient Descent,在反向传播中，是否使用梯度w.r.t.层L-1计算损耗梯度w.r.t.层L？或者，是否使用梯度w.r.t层L计算损耗梯度w.r.t层L-1？在反向传播中使用梯度下降函数，以找到调整权重的最佳值。梯度下降有两种常见类型：梯度下降，和随机梯度下降梯度下降是一个函数，用于确定更改权重的最佳调整值。在每次迭代中，它确定了重量应调整的体积/数量，距离最佳确定重量越远，调整值越大。你可以把它想象成一个从山上滚下来的球；球的速度是调整值，山丘是可能的调整值。基本上，您希望球（调整值）尽可能接近世界底部（可能

在反向传播中，是否使用梯度w.r.t.层L-1计算损耗梯度w.r.t.层L？或者，是否使用梯度w.r.t层L计算损耗梯度w.r.t层L-1？

在反向传播中使用梯度下降函数，以找到调整权重的最佳值。梯度下降有两种常见类型：

梯度下降

，和

随机梯度下降

梯度下降是一个函数，用于确定更改权重的最佳调整值。在每次迭代中，它确定了重量应调整的体积/数量，距离最佳确定重量越远，调整值越大。你可以把它想象成一个从山上滚下来的球；球的速度是调整值，山丘是可能的调整值。基本上，您希望球（调整值）尽可能接近世界底部（可能的调整）。球的速度将增加，直到它到达山丘底部-山丘底部是可能的最佳值。可以找到一个更实际的解释

随机梯度下降是梯度下降函数的一个更复杂的版本，它被用于可能具有虚假最佳调整值的神经网络中，其中常规梯度下降不会找到最佳值，但它认为的值是最佳值。这可以类比为球从两座山上滚下来，两座山的高度不同。它滚下第一座山，到达第一座山的底部，认为它已经到达了可能的最佳答案，但通过随机梯度下降，它会知道它现在所在的位置不是最佳位置，但实际上是第二座山的底部

左边是梯度下降的输出。右边是随机梯度下降将发现的（最佳可能值）。可以找到这种解释的更具描述性和实用性的版本

最后，为了总结我对你问题的回答，在反向传播中，你计算最右边的权重矩阵的梯度，然后相应地调整权重，然后向左移动一层，

L-1

，（在下一个权重矩阵上）并重复该步骤，换句话说，你确定梯度，相应地调整，然后向左移动

我还在另一个问题中详细讨论了这一点，这可能会有所帮助。

谢谢！然而，这个问题的答案是什么->在反向传播中，损耗梯度w.r.t层L是用梯度w.r.t层L-1计算的吗？或者，损耗梯度w.r.t.层L-1是用梯度w.r.t层L计算的吗？@AnubhavSachdev我不完全确定你在问什么？你的意思是，

如何计算损失梯度？

在反向传播过程中，当我们计算任何给定层L的权重矩阵梯度时，过程的顺序是什么？我们是先计算前一层（L-1）的梯度，然后再计算当前层（L）的梯度，还是先计算当前层（L）的梯度，然后再计算前一层（L-1）？因此反向传播的过程顺序如下：首先你像通常一样向前传播你的网络，然后反向传播，这是正向传播的相反方向（向后），所以从右向左。从最后一层开始，找到该层的渐变，并相应地调整权重，然后转到下一层（在本例中为左下一层）并重复，因此是的。计算当前层的渐变，调整权重，然后移动到当前层之前的层（

L-1

）。我会把这个包括在我的answer@AnubhavSachdev我希望我回答了你的问题，如果你对我的回答感到满意，请投我的票并接受它！