Deep learning 为什么批量标准化在计算均值和方差时不停止梯度?

Deep learning 为什么批量标准化在计算均值和方差时不停止梯度?,deep-learning,neural-network,batch-normalization,Deep Learning,Neural Network,Batch Normalization,据我所知,BN在反向传播过程中提供了权重尺度不变性,因此,稳定了训练过程。出于好奇,我想知道为什么BN在计算均值和方差时不停止梯度,因为这样做不会改变这个属性?停止梯度是什么意思?防止均值和方差的梯度被考虑在back prop中。我也想知道为什么。这里有点讨论:请看我的回答:“停止梯度”是什么意思?防止在后面的道具中考虑均值和方差的梯度。我也想知道为什么。这里有点讨论:请看我的回答:

据我所知,BN在反向传播过程中提供了权重尺度不变性,因此,稳定了训练过程。出于好奇,我想知道为什么BN在计算均值和方差时不停止梯度,因为这样做不会改变这个属性?

停止梯度是什么意思?防止均值和方差的梯度被考虑在back prop中。我也想知道为什么。这里有点讨论:请看我的回答:“停止梯度”是什么意思?防止在后面的道具中考虑均值和方差的梯度。我也想知道为什么。这里有点讨论:请看我的回答: