Tensorflow 如何解释卷积神经网络中的梯度范数?

Tensorflow 如何解释卷积神经网络中的梯度范数?,tensorflow,conv-neural-network,pytorch,Tensorflow,Conv Neural Network,Pytorch,这可能是最基本的,但我无法理解计算梯度范数的解释 例如,我正在使用体系结构进行二进制分割,通过堆叠多个U形网络,每个网络具有类似于Resnet34的编码器。我对该网络进行了训练,获得了梯度平均值和范数值,如下所示: conv1的平均梯度为-1.77767194275e-14 conv1的常模梯度为2.57230658463e-05 第1层的平均梯度为1.27381299952e-11 第1层的标准梯度为0.000390226632589 第2层的平均梯度为-2.3107595

这可能是最基本的,但我无法理解计算梯度范数的解释

例如,我正在使用体系结构进行二进制分割,通过堆叠多个U形网络,每个网络具有类似于Resnet34的编码器。我对该网络进行了训练,获得了梯度平均值和范数值,如下所示:

  • conv1的平均梯度为-1.77767194275e-14

  • conv1的常模梯度为2.57230658463e-05

  • 第1层的平均梯度为1.27381299952e-11

  • 第1层的标准梯度为0.000390226632589

  • 第2层的平均梯度为-2.3107595698e-11

  • 第二层的标准梯度为0.000265486567514

所有的值似乎都很低。我不能把它们看作是消失的梯度问题,或者梯度取决于这个问题可以是很低的。< /P> 如果梯度真的很低,检查消失梯度问题的最佳方法是什么


如有任何建议,请分析梯度数据。提前谢谢

低平均值没有问题。当然,一些问题可能会导致低值,但低值本身并不意味着问题。此外,我认为梯度的标准并不太低

在这种情况下,我们应该重新思考是什么导致了消失梯度问题。当我们使用ReLU作为激活函数时,梯度不会消失(但可以为零)