Nlp 伯特训练前损失没有减少

Nlp 伯特训练前损失没有减少,nlp,loss,bert-language-model,Nlp,Loss,Bert Language Model,我正在使用原始参数(学习率=5e-5,训练批量=32,训练步骤数=100000)在单云TPU v2 8上使用保加利亚数据集对伯特进行预训练。 问题是它完成训练的速度非常快(3小时),而且损失不低于3小时。我的训练数据是40GB,我使用的是tensorflow 1.15 你知道可能是什么问题吗

我正在使用原始参数(学习率=5e-5,训练批量=32,训练步骤数=100000)在单云TPU v2 8上使用保加利亚数据集对伯特进行预训练。 问题是它完成训练的速度非常快(3小时),而且损失不低于3小时。我的训练数据是40GB,我使用的是tensorflow 1.15

你知道可能是什么问题吗