Machine learning ReLU重量初始化？_Machine Learning

Machine learning ReLU重量初始化？

machine-learning

Machine learning ReLU重量初始化？,machine-learning,Machine Learning,我已经读到，He权重初始化He et al.，2015建立在Lecun权重初始化的基础上，并建议采用零平均高斯分布，其中标准偏差为该函数应与ReLU一起用于解决消失/爆炸梯度问题。对我来说，这确实是有意义的，因为ReLu的构建方式使它不受消失/爆炸梯度问题的困扰。因为，如果输入小于0，则导数为零，否则导数为1。所以，无论方差是多少，梯度都是0或1。因此，He权重初始化是无用的。我知道我遗漏了一些东西，这就是为什么我问是否有人会告诉我重量初始化的有用性权重初始化通常应用于具有可学习/可训练参数

我已经读到，He权重初始化He et al.，2015建立在Lecun权重初始化的基础上，并建议采用零平均高斯分布，其中标准偏差为

该函数应与ReLU一起用于解决消失/爆炸梯度问题。对我来说，这确实是有意义的，因为ReLu的构建方式使它不受消失/爆炸梯度问题的困扰。因为，如果输入小于0，则导数为零，否则导数为1。所以，无论方差是多少，梯度都是0或1。因此，He权重初始化是无用的。我知道我遗漏了一些东西，这就是为什么我问是否有人会告诉我重量初始化的有用性

权重初始化通常应用于具有可学习/可训练参数的层的权重，就像密集层、卷积层和其他层一样。ReLU是一个激活函数，完全确定，没有初始化

关于消失梯度问题，反向传播步骤的资金来源是通过链规则偏导数计算每个权重的梯度，见：

。。。每个神经网络的权值都会得到更新与误差函数的偏导数成比例关于每次训练迭代中的当前权重

网络越深，这些梯度越小，当网络变得足够深时，反支撑步骤在最坏的情况下效果就越差，它停止学习，这就成为一个问题：

这就产生了将这些小数字的n相乘来计算的效果 n层网络中前层的梯度，这意味着梯度误差信号随n呈指数衰减，而前几层训练非常慢

选择适当的激活函数，如ReLU，通过使激活的偏导数不太小，有助于避免这种情况发生，如您在OP中所述：

整流器如ReLU受消失梯度影响较小问题，因为它们只在一个方向饱和

希望这有帮助

@Yassire这能回答你的问题吗？