Neural network 反向传播和梯度下降使用相同的逻辑吗?

Neural network 反向传播和梯度下降使用相同的逻辑吗?,neural-network,conv-neural-network,gradient-descent,backpropagation,Neural Network,Conv Neural Network,Gradient Descent,Backpropagation,在CNN中使用反向传播来更新随机分配的权重、偏差和滤波器。对于值的更新,我们使用从头到尾的链规则找到梯度,并使用公式 新值=旧值-(学习率*梯度) 梯度下降是一种优化方法,用于优化损失函数。这里还计算了梯度,公式为 新值=旧值-(学习率*梯度) 如果我在上述解释中出错,请纠正我 我的疑问是: 反向传播和梯度下降是否使用相同的逻辑 反向传播和梯度下降之间有关系吗 因此您会感到困惑,反向传播只是一个名称,用于颠倒您移动的顺序,通常在正向传播中,您通过每一层向前移动,但在反向传播中,您会向后移动 你

在CNN中使用反向传播来更新随机分配的权重、偏差和滤波器。对于值的更新,我们使用从头到尾的链规则找到梯度,并使用公式

新值=旧值-(学习率*梯度)

梯度下降是一种优化方法,用于优化损失函数。这里还计算了梯度,公式为

新值=旧值-(学习率*梯度)

如果我在上述解释中出错,请纠正我

我的疑问是:

  • 反向传播和梯度下降是否使用相同的逻辑
  • 反向传播和梯度下降之间有关系吗

因此您会感到困惑,反向传播只是一个名称,用于颠倒您移动的顺序,通常在正向传播中,您通过每一层向前移动,但在反向传播中,您会向后移动

你可以认为传播是神经网络的引擎,在正向传播中它向前移动,在反向传播中它向后移动。引擎不进行任何计算,它只用于定义您所在的层以及下一层

在反向传播中,有代价函数。您可以使用的代价函数类型之一称为
梯度下降
算法。另一种可能是
随机梯度下降
算法。这些算法用于找到调整权重的最佳值

我希望这能解决您的问题,如果您需要更多信息,请留下评论。如果您想了解更多有关
梯度下降
随机梯度下降
的详细信息,我建议您查看我以前的一些答案,然后选择


再见,祝你今天愉快

所以您会感到困惑,反向传播只是一个名称,用于颠倒移动的顺序,通常在正向传播中,您会在每一层中向前移动,但在反向传播中,您会向后移动

你可以认为传播是神经网络的引擎,在正向传播中它向前移动,在反向传播中它向后移动。引擎不进行任何计算,它只用于定义您所在的层以及下一层

在反向传播中,有代价函数。您可以使用的代价函数类型之一称为
梯度下降
算法。另一种可能是
随机梯度下降
算法。这些算法用于找到调整权重的最佳值

我希望这能解决您的问题,如果您需要更多信息,请留下评论。如果您想了解更多有关
梯度下降
随机梯度下降
的详细信息,我建议您查看我以前的一些答案,然后选择


再见,祝你今天愉快

反向传播是神经网络的梯度下降。 梯度下降法是一种更通用的一阶迭代优化算法,用于逼近可微函数。使用它来训练多层神经网络(其中每一层代表一个可微函数),我们可以为这类模型推导出一个更专门的算法(处理我们有隐藏单元的事实)。由此产生的算法称为反向传播


在每次训练迭代显示多少数据的特定背景下,SGD和GD之间存在一个差异(参见James Barnett的回答),尽管我认为如果要将“小批量学习”与随机梯度下降进行对比,“小批量学习”一词更精确。

反向传播是神经网络的梯度下降。 梯度下降法是一种更通用的一阶迭代优化算法,用于逼近可微函数。使用它来训练多层神经网络(其中每一层代表一个可微函数),我们可以为这类模型推导出一个更专门的算法(处理我们有隐藏单元的事实)。由此产生的算法称为反向传播


在每次训练迭代显示多少数据的特定背景下,SGD和GD之间存在一个差异(参见James Barnett的回答),尽管我认为如果要将“小批量学习”与随机梯度下降进行对比,“小批量学习”一词更精确。

简短回答。反向传播:查找成本的导数
dC=dC/dW+dC/dB
。梯度下降:使用导数更新W,B。简短回答。反向传播:查找成本的导数
dC=dC/dW+dC/dB
。梯度下降:使用导数来更新W,B。是梯度下降、成本函数还是优化器?@pjrockzzz从我可以找到的资源中,它是一种成本函数。还包括
随机梯度下降
@JamesBarnett gradient-down是一个优化器,SGD是一个随机近似值,其中批大小为1。“成本”或“损失”函数略有不同,因为它是优化器的一部分,但绝对不同于优化器。事实上,正是该函数被优化器最小化,通常是一些度量,如均方误差。因此,在您链接的这些典型的梯度下降图像中,成本是y轴,参数是x轴,我们在x轴上搜索成本函数的局部极小值。是梯度下降、成本函数还是优化器?@pjrockzzz从我可以找到的资源中,它是一种成本函数。还包括
随机梯度下降
@JamesBarnett gradient-down是一个优化器,SGD是一个随机近似值,其中批大小为1。“成本”或“损失”函数略有不同,因为它是优化器的一部分,但绝对不同于优化器。事实上,正是这个函数被优化器最小化了,通常如此