Machine learning 小批量渐变只是在线渐变的总和吗？_Machine Learning_Neural Network_Backpropagation_Gradient Descent

Machine learning 小批量渐变只是在线渐变的总和吗？

machine-learning neural-network

Machine learning 小批量渐变只是在线渐变的总和吗？,machine-learning,neural-network,backpropagation,gradient-descent,Machine Learning,Neural Network,Backpropagation,Gradient Descent,我正在修改用于训练神经网络的代码，该神经网络进行在线训练，以用于小批量生产。重量（de/dw）的小批量梯度是否只是小批量样品的梯度之和？或者，它是由于S形输出函数而产生的非线性函数吗？或者，它是总和，但除以一些数字，使之更小澄清：最好更具体地提出这个问题，并询问完整批次梯度和在线梯度之间的关系。因此，见下一段：我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度

我正在修改用于训练神经网络的代码，该神经网络进行在线训练，以用于小批量生产。重量（de/dw）的小批量梯度是否只是小批量样品的梯度之和？或者，它是由于S形输出函数而产生的非线性函数吗？或者，它是总和，但除以一些数字，使之更小

澄清：最好更具体地提出这个问题，并询问完整批次梯度和在线梯度之间的关系。因此，见下一段：

我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度是否等于每个样品的梯度之和（保持整个批次的重量不变）

这在一定程度上取决于您的精确成本函数，但当您使用在线模式时，这意味着您的函数在训练样本的意义上是可加的，因此最可能的方法（不知道确切细节）是计算平均梯度。当然，如果你只是将它们相加，结果会完全相同，但需要的学习率会更小。
这取决于你的确切成本函数，但由于你使用的是在线模式，这意味着你的函数在训练样本的意义上是可加的，因此最可能的方式（不知道确切的细节）用于计算平均梯度。当然，如果你只是将它们相加，结果会完全相同，但需要的学习率会更小。
这取决于你的确切成本函数，但由于你使用的是在线模式，这意味着你的函数在训练样本的意义上是可加的，因此最可能的方式（不知道确切的细节）用于计算平均梯度。当然，如果你只是将它们相加，结果会完全相同，但需要的学习率会更小。
这取决于你的确切成本函数，但由于你使用的是在线模式，这意味着你的函数在训练样本的意义上是可加的，因此最可能的方式（不知道确切的细节）用于计算平均梯度。当然，如果你只是总结一下，结果会完全一样，但需要的学习率会更低。
+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度是否等于每个样品的梯度之和（保持整个批次的重量不变）？是的，它只是一个总和。虽然对于分类，您应该使用交叉熵成本函数，因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度是否等于每个样品的梯度之和（保持整个批次的重量不变）？是的，它只是一个总和。虽然对于分类，您应该使用交叉熵成本函数，因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度是否等于每个样品的梯度之和（保持整个批次的重量不变）？是的，它只是一个总和。虽然对于分类，您应该使用交叉熵成本函数，因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类：一些点为1，其他点为0。误差是（目标-输出）平方的一半。我的问题是，整个批次的梯度是否等于每个样品的梯度之和（保持整个批次的重量不变）？是的，它只是一个总和。虽然对于分类，您更应该使用交叉熵成本函数，因为平方误差对于回归定义得很好。