Neural network caffe batchnorm层是否影响基层?

Neural network caffe batchnorm层是否影响基层?,neural-network,normalization,caffe,Neural Network,Normalization,Caffe,我在caffe框架下看到了以下代码。整个代码试图编写caffetrain_val.prototxt和solver.prototxt # Use different initial learning rate. if use_batchnorm: base_lr = 0.0004 else: base_lr = 0.00004 为什么基础学习率不同?如果有帮助,你可以试试。 他们说,如果你不使用标准化,你需要“更仔细地”训练,这意味着使用较低的学习率 浏览第一页,我可以想象它是这

我在caffe框架下看到了以下代码。整个代码试图编写caffe
train_val.prototxt
solver.prototxt

# Use different initial learning rate.
if use_batchnorm:
    base_lr = 0.0004
else:
    base_lr = 0.00004
为什么基础学习率不同?

如果有帮助,你可以试试。 他们说,如果你不使用标准化,你需要“更仔细地”训练,这意味着使用较低的学习率

浏览第一页,我可以想象它是这样工作的:

对于某些非线性,有一个“良好的输入值范围”,批处理范数将值带入该范围。高输入值不好,会导致饱和(函数中的小斜率和“消失梯度”)

因此,如果你不正常化,你需要采取更小的步骤——更低的学习率——以避免“跳转”到权重中,从而导致网络中的高值。还要注意如何初始化权重。我想如果你用雷卢斯,那没什么问题。但是如果其他人与ReLus有过不同的经历,请纠正我。

如果有帮助,你可以试试。 他们说,如果你不使用标准化,你需要“更仔细地”训练,这意味着使用较低的学习率

浏览第一页,我可以想象它是这样工作的:

对于某些非线性,有一个“良好的输入值范围”,批处理范数将值带入该范围。高输入值不好,会导致饱和(函数中的小斜率和“消失梯度”)

因此,如果你不正常化,你需要采取更小的步骤——更低的学习率——以避免“跳转”到权重中,从而导致网络中的高值。还要注意如何初始化权重。我想如果你用雷卢斯,那没什么问题。但是如果其他人对雷卢斯有不同的经历,请纠正我