Machine learning 小批量渐变只是在线渐变的总和吗?

Machine learning 小批量渐变只是在线渐变的总和吗?,machine-learning,neural-network,backpropagation,gradient-descent,Machine Learning,Neural Network,Backpropagation,Gradient Descent,我正在修改用于训练神经网络的代码,该神经网络进行在线训练,以用于小批量生产。重量(de/dw)的小批量梯度是否只是小批量样品的梯度之和?或者,它是由于S形输出函数而产生的非线性函数吗?或者,它是总和,但除以一些数字,使之更小 澄清:最好更具体地提出这个问题,并询问完整批次梯度和在线梯度之间的关系。因此,见下一段: 我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度

我正在修改用于训练神经网络的代码,该神经网络进行在线训练,以用于小批量生产。重量(de/dw)的小批量梯度是否只是小批量样品的梯度之和?或者,它是由于S形输出函数而产生的非线性函数吗?或者,它是总和,但除以一些数字,使之更小

澄清:最好更具体地提出这个问题,并询问完整批次梯度和在线梯度之间的关系。因此,见下一段:


我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度是否等于每个样品的梯度之和(保持整个批次的重量不变)

这在一定程度上取决于您的精确成本函数,但当您使用在线模式时,这意味着您的函数在训练样本的意义上是可加的,因此最可能的方法(不知道确切细节)是计算平均梯度。当然,如果你只是将它们相加,结果会完全相同,但需要的学习率会更小。

这取决于你的确切成本函数,但由于你使用的是在线模式,这意味着你的函数在训练样本的意义上是可加的,因此最可能的方式(不知道确切的细节)用于计算平均梯度。当然,如果你只是将它们相加,结果会完全相同,但需要的学习率会更小。

这取决于你的确切成本函数,但由于你使用的是在线模式,这意味着你的函数在训练样本的意义上是可加的,因此最可能的方式(不知道确切的细节)用于计算平均梯度。当然,如果你只是将它们相加,结果会完全相同,但需要的学习率会更小。

这取决于你的确切成本函数,但由于你使用的是在线模式,这意味着你的函数在训练样本的意义上是可加的,因此最可能的方式(不知道确切的细节)用于计算平均梯度。当然,如果你只是总结一下,结果会完全一样,但需要的学习率会更低。

+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度是否等于每个样品的梯度之和(保持整个批次的重量不变)?是的,它只是一个总和。虽然对于分类,您应该使用交叉熵成本函数,因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度是否等于每个样品的梯度之和(保持整个批次的重量不变)?是的,它只是一个总和。虽然对于分类,您应该使用交叉熵成本函数,因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度是否等于每个样品的梯度之和(保持整个批次的重量不变)?是的,它只是一个总和。虽然对于分类,您应该使用交叉熵成本函数,因为平方误差对于回归来说定义得很好。+1谢谢。我使用具有乙状结肠激活功能的神经元对二维空间中的点进行分类。该体系结构为2x10x10。有两个输出类:一些点为1,其他点为0。误差是(目标-输出)平方的一半。我的问题是,整个批次的梯度是否等于每个样品的梯度之和(保持整个批次的重量不变)?是的,它只是一个总和。虽然对于分类,您更应该使用交叉熵成本函数,因为平方误差对于回归定义得很好。