Deep learning 为什么批量标准化在计算均值和方差时不停止梯度？_Deep Learning_Neural Network_Batch Normalization

Deep learning 为什么批量标准化在计算均值和方差时不停止梯度？

deep-learning neural-network

Deep learning 为什么批量标准化在计算均值和方差时不停止梯度？,deep-learning,neural-network,batch-normalization,Deep Learning,Neural Network,Batch Normalization,据我所知，BN在反向传播过程中提供了权重尺度不变性，因此，稳定了训练过程。出于好奇，我想知道为什么BN在计算均值和方差时不停止梯度，因为这样做不会改变这个属性？停止梯度是什么意思？防止均值和方差的梯度被考虑在back prop中。我也想知道为什么。这里有点讨论：请看我的回答：“停止梯度”是什么意思？防止在后面的道具中考虑均值和方差的梯度。我也想知道为什么。这里有点讨论：请看我的回答：

据我所知，BN在反向传播过程中提供了权重尺度不变性，因此，稳定了训练过程。出于好奇，我想知道为什么BN在计算均值和方差时不停止梯度，因为这样做不会改变这个属性？

停止梯度是什么意思？防止均值和方差的梯度被考虑在back prop中。我也想知道为什么。这里有点讨论：请看我的回答：“停止梯度”是什么意思？防止在后面的道具中考虑均值和方差的梯度。我也想知道为什么。这里有点讨论：请看我的回答：