Deep learning 为什么;"格鲁",;激活函数用于读取BERT中的ReLu?

Deep learning 为什么;"格鲁",;激活函数用于读取BERT中的ReLu?,deep-learning,nlp,Deep Learning,Nlp,我在激活函数中使用了高斯误差线性单位(GELUs)用于流行的NLP模型BERT。有什么确凿的原因吗?不知道为什么某些激活函数在不同的环境下比其他函数工作得更好。因此,“为什么使用GELU而不是ReLu”的唯一答案是“因为它工作得更好”

我在激活函数中使用了高斯误差线性单位(GELUs)用于流行的NLP模型BERT。有什么确凿的原因吗?

不知道为什么某些激活函数在不同的环境下比其他函数工作得更好。因此,“为什么使用GELU而不是ReLu”的唯一答案是“因为它工作得更好”