Nlp 我的检查点文件在训练时不会更改

Nlp 我的检查点文件在训练时不会更改,nlp,training-data,bert-language-model,checkpoint,question-answering,Nlp,Training Data,Bert Language Model,Checkpoint,Question Answering,我训练Albert模型进行问答任务。我有20万个问题-答案对,我使用一个2gb的保存的检查点文件。我在我的GPU GeForce 2070 RTX上训练它,每次用1000个步骤来保存检查点,在训练检查点model.ckpt-96000.data-00000-of-00001文件的过程中,只需保持135MB的大小,并且不增加。这是个问题吗 我不明白为什么对于一个小得多的数据集,比如1500个问答对,它还会生成135MB的检查点文件。它尚未停止训练,但模型是否有可能通过此训练得到改进?训练模型时,您

我训练Albert模型进行问答任务。我有20万个问题-答案对,我使用一个2gb的保存的检查点文件。我在我的GPU GeForce 2070 RTX上训练它,每次用1000个步骤来保存检查点,在训练检查点
model.ckpt-96000.data-00000-of-00001
文件的过程中,只需保持
135MB的大小,并且不增加。这是个问题吗


我不明白为什么对于一个小得多的数据集,比如1500个问答对,它还会生成135MB的检查点文件。它尚未停止训练,但模型是否有可能通过此训练得到改进?

训练模型时,您可以将权重存储在一组文件中,这些文件的格式为检查点,其中仅包含以二进制格式训练的权重

特别是,检查点包括:

  • 包含模型权重的一个或多个块
  • 指示在特定块中存储哪些权重的索引文件
因此,检查点文件的大小始终相同这一事实取决于所使用的模型始终相同这一事实。因此,模型参数的数量始终相同,因此要保存的权重大小始终相同。后缀
data-00000-of-00001
表示您正在一台机器上训练模型


在我看来,数据集的大小与此无关。

是的,我在一台机器上进行了培训,尽管我的数据集很大,但我只能以8的批量大小进行培训,我已经完成了40万个步骤,损失仍然是3.5。你认为我有什么办法来减少它:(?在不知道您面临的问题、使用的模型等的情况下,很难给出有用的建议……如果您想尝试增加批量,但无法使用gpu,您可以尝试“免费”服务,如google colab和/或kaggle