Neural network 反向传播和梯度下降使用相同的逻辑吗？_Neural Network_Conv Neural Network_Gradient Descent_Backpropagation

Neural network 反向传播和梯度下降使用相同的逻辑吗？

neural-network

Neural network 反向传播和梯度下降使用相同的逻辑吗？,neural-network,conv-neural-network,gradient-descent,backpropagation,Neural Network,Conv Neural Network,Gradient Descent,Backpropagation,在CNN中使用反向传播来更新随机分配的权重、偏差和滤波器。对于值的更新，我们使用从头到尾的链规则找到梯度，并使用公式新值=旧值-（学习率*梯度）梯度下降是一种优化方法，用于优化损失函数。这里还计算了梯度，公式为新值=旧值-（学习率*梯度）如果我在上述解释中出错，请纠正我我的疑问是：反向传播和梯度下降是否使用相同的逻辑反向传播和梯度下降之间有关系吗因此您会感到困惑，反向传播只是一个名称，用于颠倒您移动的顺序，通常在正向传播中，您通过每一层向前移动，但在反向传播中，您会向后移动你

在CNN中使用反向传播来更新随机分配的权重、偏差和滤波器。对于值的更新，我们使用从头到尾的链规则找到梯度，并使用公式

新值=旧值-（学习率*梯度）

梯度下降是一种优化方法，用于优化损失函数。这里还计算了梯度，公式为

新值=旧值-（学习率*梯度）

如果我在上述解释中出错，请纠正我

我的疑问是：

反向传播和梯度下降是否使用相同的逻辑
反向传播和梯度下降之间有关系吗

因此您会感到困惑，反向传播只是一个名称，用于颠倒您移动的顺序，通常在正向传播中，您通过每一层向前移动，但在反向传播中，您会向后移动

你可以认为传播是神经网络的引擎，在正向传播中它向前移动，在反向传播中它向后移动。引擎不进行任何计算，它只用于定义您所在的层以及下一层

在反向传播中，有代价函数。您可以使用的代价函数类型之一称为

梯度下降

算法。另一种可能是

随机梯度下降

算法。这些算法用于找到调整权重的最佳值

我希望这能解决您的问题，如果您需要更多信息，请留下评论。如果您想了解更多有关

梯度下降

或

随机梯度下降

的详细信息，我建议您查看我以前的一些答案，然后选择

再见，祝你今天愉快

所以您会感到困惑，反向传播只是一个名称，用于颠倒移动的顺序，通常在正向传播中，您会在每一层中向前移动，但在反向传播中，您会向后移动

你可以认为传播是神经网络的引擎，在正向传播中它向前移动，在反向传播中它向后移动。引擎不进行任何计算，它只用于定义您所在的层以及下一层

在反向传播中，有代价函数。您可以使用的代价函数类型之一称为

梯度下降

算法。另一种可能是

随机梯度下降

算法。这些算法用于找到调整权重的最佳值

我希望这能解决您的问题，如果您需要更多信息，请留下评论。如果您想了解更多有关

梯度下降

或

随机梯度下降

的详细信息，我建议您查看我以前的一些答案，然后选择

再见，祝你今天愉快

反向传播是神经网络的梯度下降。梯度下降法是一种更通用的一阶迭代优化算法，用于逼近可微函数。使用它来训练多层神经网络（其中每一层代表一个可微函数），我们可以为这类模型推导出一个更专门的算法（处理我们有隐藏单元的事实）。由此产生的算法称为反向传播

在每次训练迭代显示多少数据的特定背景下，SGD和GD之间存在一个差异（参见James Barnett的回答），尽管我认为如果要将“小批量学习”与随机梯度下降进行对比，“小批量学习”一词更精确。

简短回答。反向传播：查找成本的导数

dC=dC/dW+dC/dB

。梯度下降：使用导数更新W，B。简短回答。反向传播：查找成本的导数

dC=dC/dW+dC/dB

。梯度下降：使用导数来更新W，B。是梯度下降、成本函数还是优化器？@pjrockzzz从我可以找到的资源中，它是一种成本函数。还包括

随机梯度下降

@JamesBarnett gradient-down是一个优化器，SGD是一个随机近似值，其中批大小为1。“成本”或“损失”函数略有不同，因为它是优化器的一部分，但绝对不同于优化器。事实上，正是该函数被优化器最小化，通常是一些度量，如均方误差。因此，在您链接的这些典型的梯度下降图像中，成本是y轴，参数是x轴，我们在x轴上搜索成本函数的局部极小值。是梯度下降、成本函数还是优化器？@pjrockzzz从我可以找到的资源中，它是一种成本函数。还包括

随机梯度下降

@JamesBarnett gradient-down是一个优化器，SGD是一个随机近似值，其中批大小为1。“成本”或“损失”函数略有不同，因为它是优化器的一部分，但绝对不同于优化器。事实上，正是这个函数被优化器最小化了，通常如此