Bert language model 重量及重量;偏差-培训时如何解释图表

Bert language model 重量及重量;偏差-培训时如何解释图表,bert-language-model,Bert Language Model,当你在训练一个伯特模型时,有人能帮助我理解权重和偏差工具生成的惊人图形吗 我如何解释上面的图像?我不知道分散灰色是什么意思,也不知道蓝色区域的浓度是好是坏 提前感谢。所以这些图表显示了每个时间步的梯度直方图 以最左边的图表为例,第10层权重。在步骤0的第一个切片中,灰色阴影告诉您该层的渐变值介于~-40和+40之间。然而,蓝色部分告诉您,这些渐变中的大多数在-2和+2之间(大致上) 因此,着色表示特定直方图箱中特定时间步长的渐变计数 现在,解释渐变有时会很棘手,但通常我发现这些绘图有助于检查渐

当你在训练一个伯特模型时,有人能帮助我理解权重和偏差工具生成的惊人图形吗

我如何解释上面的图像?我不知道分散灰色是什么意思,也不知道蓝色区域的浓度是好是坏


提前感谢。

所以这些图表显示了每个时间步的梯度直方图

以最左边的图表为例,第10层权重。在步骤0的第一个切片中,灰色阴影告诉您该层的渐变值介于~-40和+40之间。然而,蓝色部分告诉您,这些渐变中的大多数在-2和+2之间(大致上)

因此,着色表示特定直方图箱中特定时间步长的渐变计数

现在,解释渐变有时会很棘手,但通常我发现这些绘图有助于检查渐变是否发生爆炸(y轴上的大值)或塌陷(0附近的蓝色集中,几乎没有偏差)。例如,如果您尝试以非常高的学习率进行训练,您应该会看到y轴上的值变为100秒或1000秒,这表明您的梯度很大


最后一个技巧是将更多的注意力集中在权重的梯度上,而不是偏差上,因为这可以为您的模型提供更多的信息。

非常感谢。现在清楚了。我将关注重量,但要关注其他重量。太棒了。