Google colaboratory 如何在Google Colaboratory中结束长时间运行的会话后,使用剩余的时间来训练模型。?

Google colaboratory 如何在Google Colaboratory中结束长时间运行的会话后,使用剩余的时间来训练模型。?,google-colaboratory,Google Colaboratory,我正在用谷歌Colab训练我的三维卷积神经网络,有60个周期,但当它达到57个周期时,我的课程就结束了。重新连接后,训练从历元1开始 在我的Google Colaboratory课程结束后,我应该如何在未完成的时间段上训练我的模型?for Colaboratory包括以下陈述: 什么是协同实验室?协同实验室是机器学习教育和研究的研究工具 Colaboratory用于交互式使用。长时间运行的背景 计算,特别是在GPU上,可能会停止。。。我们鼓励 希望通过运行连续或长时间运行计算的用户 Colabo

我正在用谷歌Colab训练我的三维卷积神经网络,有60个周期,但当它达到57个周期时,我的课程就结束了。重新连接后,训练从历元1开始

在我的Google Colaboratory课程结束后,我应该如何在未完成的时间段上训练我的模型?

for Colaboratory包括以下陈述:

  • 什么是协同实验室?协同实验室是机器学习教育和研究的研究工具
  • Colaboratory用于交互式使用。长时间运行的背景 计算,特别是在GPU上,可能会停止。。。我们鼓励 希望通过运行连续或长时间运行计算的用户 Colaboratory的用户界面使用
  • 训练ML模型通常需要长时间的计算。因此,我正在考虑的选择是:

  • 按照建议使用一种新的方法。这可能是云虚拟机或您的笔记本电脑
  • 使用-您可以控制(并支付)谷歌云中的虚拟机资源
  • 检查每个历元,并将检查点和权重保存到持久存储。看。如果笔记本已重置,则从检查点重新启动培训
  • 考虑到您在Colaboratory上的培训几乎完成,选项3可能是最容易开始的。这取决于您使用的库以及它们是否支持此功能


    如果您正在运行更大的计算,那么请考虑使用本地运行时或DataLab。

    您必须在一段时间间隔后保存检查点。如果您的历元执行速度快,则可以在5-10个历元后保存模型,否则在每个历元后保存模型。并检查代码以重新读取最新的检查点(基于某些命名约定)。现在这有什么问题

  • 因为这是一个协作平台,而且是免费的,所以他们不会给你一个专用的GPU实例,所以你可以随时断开它 刷新浏览器/关闭浏览器/断开互联网连接等
  • 这样,您就可以使用分配给您的临时存储空间
  • 此外,协作室为您的数据和模型提供了有限的存储空间
  • 因此,您需要将检查点保存在一些“持久”存储上。Collaboratory支持google drive。您可以检查如何在那里保存文件。 此外,你还必须检查如何从那里阅读

    或者,如果你正在寻找其他选择。AWS spot实例可以是一个合理的选择(但是它是付费的,如果你可以从某处获得一些学生学分,你可以使用它)。只需提及,Colab也是Google的一个spot实例。你也可以访问www.crestle.com,每小时收费3美分