Google cloud platform 为BERT创建\u预训练\u数据花费的时间太长,无法读取输入文件

Google cloud platform 为BERT创建\u预训练\u数据花费的时间太长,无法读取输入文件,google-cloud-platform,bert-language-model,tpu,Google Cloud Platform,Bert Language Model,Tpu,我正试图使用自己的语料库从头开始预训练BERT,但我从TFRC获得的TPU v3仍然停留在从输入文件读取时的 我以前使用较小的数据集~100MB完成过这些任务,但我不确定这是否是由于我的新输入数据集~3GB的大小造成的 我的TPU在某个点保持断开连接,没有任何进展。这真的是因为只有3GB的输入数据吗?那么其他研究人员是如何在更大的数据集上完成这些任务的呢 提前谢谢

我正试图使用自己的语料库从头开始预训练BERT,但我从TFRC获得的TPU v3仍然停留在从输入文件读取时的

我以前使用较小的数据集~100MB完成过这些任务,但我不确定这是否是由于我的新输入数据集~3GB的大小造成的

我的TPU在某个点保持断开连接,没有任何进展。这真的是因为只有3GB的输入数据吗?那么其他研究人员是如何在更大的数据集上完成这些任务的呢

提前谢谢