Tensorflow 谷歌云GPU机器突然重启

Tensorflow 谷歌云GPU机器突然重启,tensorflow,google-cloud-platform,deep-learning,cloud,gcloud,Tensorflow,Google Cloud Platform,Deep Learning,Cloud,Gcloud,在GPU机器上训练模型时,由于某些系统补丁过程,模型会被中断。由于谷歌云GPU机器没有实时迁移选项,每次发生这种情况时重新启动培训是一项痛苦的任务。谷歌已经明确提到,除了重新启动这台机器之外,没有其他办法解决这个问题。 是否有一种聪明的方法可以检测机器是否重新启动并自动恢复培训。 有时,由于一些内核更新,CUDA驱动程序停止工作,GPU不可见,CUDA驱动程序需要重新安装。因此,编写启动脚本以恢复培训也不是一个可靠的解决方案。是的。如果您使用tensorflow,您可以使用它的检查点功能来保存您

在GPU机器上训练模型时,由于某些系统补丁过程,模型会被中断。由于谷歌云GPU机器没有实时迁移选项,每次发生这种情况时重新启动培训是一项痛苦的任务。谷歌已经明确提到,除了重新启动这台机器之外,没有其他办法解决这个问题。
是否有一种聪明的方法可以检测机器是否重新启动并自动恢复培训。

有时,由于一些内核更新,CUDA驱动程序停止工作,GPU不可见,CUDA驱动程序需要重新安装。因此,编写启动脚本以恢复培训也不是一个可靠的解决方案。

是的。如果您使用tensorflow,您可以使用它的检查点功能来保存您的进度,并从您停止的地方开始

这里提供了一个很好的例子: