Machine learning ReLU重量初始化?

Machine learning ReLU重量初始化?,machine-learning,Machine Learning,我已经读到,He权重初始化He et al.,2015建立在Lecun权重初始化的基础上,并建议采用零平均高斯分布,其中标准偏差为 该函数应与ReLU一起用于解决消失/爆炸梯度问题。对我来说,这确实是有意义的,因为ReLu的构建方式使它不受消失/爆炸梯度问题的困扰。因为,如果输入小于0,则导数为零,否则导数为1。所以,无论方差是多少,梯度都是0或1。因此,He权重初始化是无用的。我知道我遗漏了一些东西,这就是为什么我问是否有人会告诉我重量初始化的有用性 权重初始化通常应用于具有可学习/可训练参数

我已经读到,He权重初始化He et al.,2015建立在Lecun权重初始化的基础上,并建议采用零平均高斯分布,其中标准偏差为


该函数应与ReLU一起用于解决消失/爆炸梯度问题。对我来说,这确实是有意义的,因为ReLu的构建方式使它不受消失/爆炸梯度问题的困扰。因为,如果输入小于0,则导数为零,否则导数为1。所以,无论方差是多少,梯度都是0或1。因此,He权重初始化是无用的。我知道我遗漏了一些东西,这就是为什么我问是否有人会告诉我重量初始化的有用性

权重初始化通常应用于具有可学习/可训练参数的层的权重,就像密集层、卷积层和其他层一样。ReLU是一个激活函数,完全确定,没有初始化

关于消失梯度问题,反向传播步骤的资金来源是通过链规则偏导数计算每个权重的梯度,见:

。。。每个神经网络的权值都会得到更新 与误差函数的偏导数成比例 关于每次训练迭代中的当前权重

网络越深,这些梯度越小,当网络变得足够深时,反支撑步骤在最坏的情况下效果就越差,它停止学习,这就成为一个问题:

这就产生了将这些小数字的n相乘来计算的效果 n层网络中前层的梯度,这意味着 梯度误差信号随n呈指数衰减,而 前几层训练非常慢

选择适当的激活函数,如ReLU,通过使激活的偏导数不太小,有助于避免这种情况发生,如您在OP中所述:

整流器如ReLU受消失梯度影响较小 问题,因为它们只在一个方向饱和


希望这有帮助

@Yassire这能回答你的问题吗?