Neural network 理解批量标准化中的方差

Neural network 理解批量标准化中的方差,neural-network,normalization,conv-neural-network,Neural Network,Normalization,Conv Neural Network,根据本文,我正在深度卷积神经网络中实现批量标准化: 使用以下等式执行标准化: 其中,为了数值稳定性,我选择ε为1e-3,所有方差初始化为1.0,所有均值初始化为0.0,均值和方差使用指数移动平均值随时间调整 为了帮助我了解我的网络是如何训练的,我绘制了直方图,表示每次预激活产生的输出方差分布: 我所观察到的是,在最初的几个训练步骤结束时,方差会“砰地”降到接近零,并且在训练过程中,对于较高的层,方差保持非常低,对于接近输出的层,方差会增加到非常大的值。注意,sqrt(1e-3)~=0.03表

根据本文,我正在深度卷积神经网络中实现批量标准化:

使用以下等式执行标准化:

其中,为了数值稳定性,我选择ε为1e-3,所有方差初始化为1.0,所有均值初始化为0.0,均值和方差使用指数移动平均值随时间调整

为了帮助我了解我的网络是如何训练的,我绘制了直方图,表示每次预激活产生的输出方差分布:

我所观察到的是,在最初的几个训练步骤结束时,方差会“砰地”降到接近零,并且在训练过程中,对于较高的层,方差保持非常低,对于接近输出的层,方差会增加到非常大的值。注意,sqrt(1e-3)~=0.03表明 第一层仍然有效地具有接近零的方差

我很难理解这一切意味着什么。这是批处理规范化的预期行为,还是某些事情似乎不正确