Tensorflow DNN:即使渐变剪裁,也会爆发渐变/损耗

Tensorflow DNN:即使渐变剪裁,也会爆发渐变/损耗,tensorflow,gradient,dotnetnuke,Tensorflow,Gradient,Dotnetnuke,我目前正面临着一个爆炸性的梯度(~10^12),在经历了几个时代后(约60年),这导致了损失的增加。这会影响验证以及培训损失。 我已经在使用渐变剪辑了。你知道是什么导致了这个问题吗?或者我能做些什么? 我还考虑过使用L2和L1丢失,但这并不能防止问题的发生,并导致性能下降 clipnorm = 1 clipvalue = 1 optimizer = tf.keras.optimizers.Adam(clipnorm=clipnorm, clipvalue=clipvalue, learning

我目前正面临着一个爆炸性的梯度(~10^12),在经历了几个时代后(约60年),这导致了损失的增加。这会影响验证以及培训损失。 我已经在使用渐变剪辑了。你知道是什么导致了这个问题吗?或者我能做些什么? 我还考虑过使用L2和L1丢失,但这并不能防止问题的发生,并导致性能下降

clipnorm = 1
clipvalue = 1

optimizer = tf.keras.optimizers.Adam(clipnorm=clipnorm, clipvalue=clipvalue, learning_rate=0.001)