Deep learning 梯度削波是否会降低RNN的有效性

Deep learning 梯度削波是否会降低RNN的有效性,deep-learning,neural-network,recurrent-neural-network,Deep Learning,Neural Network,Recurrent Neural Network,为了防止渐变爆炸,我们使用渐变剪裁。 在元素裁剪中,我们使用一个类似于[-10,10]的数字 如果坡度超过10,则更改为10 当我们将梯度更改为随机数时,为什么它不会影响RNN的效率。梯度剪裁确保梯度向量g的范数最多为x。这有助于梯度下降具有合理的行为,即使模型的损失景观是不规则的。下图显示了loss景观中一个极其陡峭的悬崖示例。如果不剪裁,参数将采取巨大的下降步骤并离开“良好”区域。通过剪裁,下降步长受到限制,参数保持在“良好”区域 一般来说,它的好处大于它可能对模型造成的伤害,这就是为什么

为了防止渐变爆炸,我们使用渐变剪裁。 在元素裁剪中,我们使用一个类似于[-10,10]
的数字 如果坡度超过10,则更改为10


当我们将梯度更改为随机数时,为什么它不会影响RNN的效率。

梯度剪裁确保梯度向量g的范数最多为x。这有助于梯度下降具有合理的行为,即使模型的损失景观是不规则的。下图显示了loss景观中一个极其陡峭的悬崖示例。如果不剪裁,参数将采取巨大的下降步骤并离开“良好”区域。通过剪裁,下降步长受到限制,参数保持在“良好”区域

一般来说,它的好处大于它可能对模型造成的伤害,这就是为什么它不会影响效率,更实际的选择是规范化梯度,而不是剪裁它,这可能会给出更好的结果