Tensorflow 如何解释卷积神经网络中的梯度范数？_Tensorflow_Conv Neural Network_Pytorch

Tensorflow 如何解释卷积神经网络中的梯度范数？

tensorflow pytorch

Tensorflow 如何解释卷积神经网络中的梯度范数？,tensorflow,conv-neural-network,pytorch,Tensorflow,Conv Neural Network,Pytorch,这可能是最基本的，但我无法理解计算梯度范数的解释例如，我正在使用体系结构进行二进制分割，通过堆叠多个U形网络，每个网络具有类似于Resnet34的编码器。我对该网络进行了训练，获得了梯度平均值和范数值，如下所示： conv1的平均梯度为-1.77767194275e-14 conv1的常模梯度为2.57230658463e-05 第1层的平均梯度为1.27381299952e-11 第1层的标准梯度为0.000390226632589 第2层的平均梯度为-2.3107595

这可能是最基本的，但我无法理解计算梯度范数的解释

例如，我正在使用体系结构进行二进制分割，通过堆叠多个U形网络，每个网络具有类似于Resnet34的编码器。我对该网络进行了训练，获得了梯度平均值和范数值，如下所示：

conv1的平均梯度为-1.77767194275e-14
conv1的常模梯度为2.57230658463e-05
第1层的平均梯度为1.27381299952e-11
第1层的标准梯度为0.000390226632589
第2层的平均梯度为-2.3107595698e-11
第二层的标准梯度为0.000265486567514

所有的值似乎都很低。我不能把它们看作是消失的梯度问题，或者梯度取决于这个问题可以是很低的。< /P> 如果梯度真的很低，检查消失梯度问题的最佳方法是什么

如有任何建议，请分析梯度数据。提前谢谢

低平均值没有问题。当然，一些问题可能会导致低值，但低值本身并不意味着问题。此外，我认为梯度的标准并不太低

在这种情况下，我们应该重新思考是什么导致了消失梯度问题。当我们使用ReLU作为激活函数时，梯度不会消失（但可以为零）