Nlp 伯特训练前损失没有减少_Nlp_Loss_Bert Language Model

Nlp 伯特训练前损失没有减少

nlp

Nlp 伯特训练前损失没有减少,nlp,loss,bert-language-model,Nlp,Loss,Bert Language Model,我正在使用原始参数（学习率=5e-5，训练批量=32，训练步骤数=100000）在单云TPU v2 8上使用保加利亚数据集对伯特进行预训练。问题是它完成训练的速度非常快（3小时），而且损失不低于3小时。我的训练数据是40GB，我使用的是tensorflow 1.15 你知道可能是什么问题吗

我正在使用原始参数（学习率=5e-5，训练批量=32，训练步骤数=100000）在单云TPU v2 8上使用保加利亚数据集对伯特进行预训练。问题是它完成训练的速度非常快（3小时），而且损失不低于3小时。我的训练数据是40GB，我使用的是tensorflow 1.15

你知道可能是什么问题吗