Python tensorflow中用于优化的小批量交叉熵平均值

Python tensorflow中用于优化的小批量交叉熵平均值,python,tensorflow,Python,Tensorflow,我试着跟着,也试着跟着 我不明白为什么在Gorner的演讲中,他在标签和预测之间使用了点积的负和。但在TensorFlow教程中,它使用了相同的方法,但随后将其分割以获得每个小批量的平均值 基本上,只要你衡量学习率,这两种方法都会起作用,但我不理解方法差异的原因。似乎平均值可以控制非常不同的变量,因为它的规模非常大。当你使用总和时,没有保证变量的调和尺度。但是对于平均值,您可以确定没有非常不同的变量。平均值似乎可以控制非常不同的变量,因为它的规模非常大。当你使用总和时,没有保证变量的调和尺度。但

我试着跟着,也试着跟着

我不明白为什么在Gorner的演讲中,他在标签和预测之间使用了点积的负和。但在TensorFlow教程中,它使用了相同的方法,但随后将其分割以获得每个小批量的平均值


基本上,只要你衡量学习率,这两种方法都会起作用,但我不理解方法差异的原因。

似乎平均值可以控制非常不同的变量,因为它的规模非常大。当你使用总和时,没有保证变量的调和尺度。但是对于
平均值
,您可以确定没有非常不同的
变量。

平均值似乎可以控制非常不同的变量,因为它的规模非常大。当你使用总和时,没有保证变量的调和尺度。但是对于
平均值
,您可以确定没有非常不同的
变量。

使用平均值而不是总和可以使目标函数的大小对小批量的选择保持不变。因此,当您决定更改小批量大小时,您可以期望与以前相同的学习速率仍然可以正常工作


其他超参数也是如此,例如L2正则化因子。

使用平均值而不是总和,使得目标函数的大小对小批量的选择保持不变。因此,当您决定更改小批量大小时,您可以期望与以前相同的学习速率仍然可以正常工作


其他超参数也是如此,例如L2正则化因子。

谢谢,现在它确实有意义了。我似乎习惯于用中庸来代替感谢,现在它确实有意义了。我似乎习惯用平均值来代替