Tensorflow 如何解释卷积神经网络中的梯度范数?
这可能是最基本的,但我无法理解计算梯度范数的解释 例如,我正在使用体系结构进行二进制分割,通过堆叠多个U形网络,每个网络具有类似于Resnet34的编码器。我对该网络进行了训练,获得了梯度平均值和范数值,如下所示:Tensorflow 如何解释卷积神经网络中的梯度范数?,tensorflow,conv-neural-network,pytorch,Tensorflow,Conv Neural Network,Pytorch,这可能是最基本的,但我无法理解计算梯度范数的解释 例如,我正在使用体系结构进行二进制分割,通过堆叠多个U形网络,每个网络具有类似于Resnet34的编码器。我对该网络进行了训练,获得了梯度平均值和范数值,如下所示: conv1的平均梯度为-1.77767194275e-14 conv1的常模梯度为2.57230658463e-05 第1层的平均梯度为1.27381299952e-11 第1层的标准梯度为0.000390226632589 第2层的平均梯度为-2.3107595
- conv1的平均梯度为-1.77767194275e-14
- conv1的常模梯度为2.57230658463e-05
- 第1层的平均梯度为1.27381299952e-11
- 第1层的标准梯度为0.000390226632589
- 第2层的平均梯度为-2.3107595698e-11
- 第二层的标准梯度为0.000265486567514
如有任何建议,请分析梯度数据。提前谢谢 低平均值没有问题。当然,一些问题可能会导致低值,但低值本身并不意味着问题。此外,我认为梯度的标准并不太低 在这种情况下,我们应该重新思考是什么导致了消失梯度问题。当我们使用ReLU作为激活函数时,梯度不会消失(但可以为零)