Deep learning 梯度削波是否会降低RNN的有效性_Deep Learning_Neural Network_Recurrent Neural Network

Deep learning 梯度削波是否会降低RNN的有效性

deep-learning neural-network

Deep learning 梯度削波是否会降低RNN的有效性,deep-learning,neural-network,recurrent-neural-network,Deep Learning,Neural Network,Recurrent Neural Network,为了防止渐变爆炸，我们使用渐变剪裁。在元素裁剪中，我们使用一个类似于[-10,10]的数字如果坡度超过10，则更改为10 当我们将梯度更改为随机数时，为什么它不会影响RNN的效率。梯度剪裁确保梯度向量g的范数最多为x。这有助于梯度下降具有合理的行为，即使模型的损失景观是不规则的。下图显示了loss景观中一个极其陡峭的悬崖示例。如果不剪裁，参数将采取巨大的下降步骤并离开“良好”区域。通过剪裁，下降步长受到限制，参数保持在“良好”区域一般来说，它的好处大于它可能对模型造成的伤害，这就是为什么

为了防止渐变爆炸，我们使用渐变剪裁。在元素裁剪中，我们使用一个类似于[-10,10]
的数字如果坡度超过10，则更改为10

当我们将梯度更改为随机数时，为什么它不会影响RNN的效率。

梯度剪裁确保梯度向量g的范数最多为x。这有助于梯度下降具有合理的行为，即使模型的损失景观是不规则的。下图显示了loss景观中一个极其陡峭的悬崖示例。如果不剪裁，参数将采取巨大的下降步骤并离开“良好”区域。通过剪裁，下降步长受到限制，参数保持在“良好”区域

一般来说，它的好处大于它可能对模型造成的伤害，这就是为什么它不会影响效率，更实际的选择是规范化梯度，而不是剪裁它，这可能会给出更好的结果