Amazon web services Sagemaker型号培训中设备上没有剩余空间

Amazon web services Sagemaker型号培训中设备上没有剩余空间,amazon-web-services,keras,amazon-sagemaker,Amazon Web Services,Keras,Amazon Sagemaker,我正在使用AWS Sagemaker的p2实例上运行Docker image附带的自定义算法(有点类似于) 在培训过程结束时,我尝试将模型写入输出目录,该目录通过Sagemaker安装(如教程中所示),如下所示: model_path = "/opt/ml/model" model.save(os.path.join(model_path, 'model.h5')) 不幸的是,很明显,随着时间的推移,模型变得太大了,我得到了 以下错误: 运行时错误:关闭文件时出现问题(文件写入失败:time=

我正在使用AWS Sagemaker的p2实例上运行Docker image附带的自定义算法(有点类似于)

在培训过程结束时,我尝试将模型写入输出目录,该目录通过Sagemaker安装(如教程中所示),如下所示:

model_path = "/opt/ml/model"
model.save(os.path.join(model_path, 'model.h5'))
不幸的是,很明显,随着时间的推移,模型变得太大了,我得到了 以下错误:

运行时错误:关闭文件时出现问题(文件写入失败:time=Thu-Jul 26 00:24:48 2018

00:24:49,文件名='model.h5',文件描述符=22,错误号=28, 错误消息='设备上没有剩余空间',buf=0x1a41d7d0,总计 写[…]


因此,我所有的GPU时间都被浪费了。我如何防止这种情况再次发生?有人知道我存储在Sagemaker/挂载目录上的型号的大小限制吗?

在Sagemaker Jupyter笔记本中,您可以检查文件系统上的可用空间通过运行
!df-h
。对于特定的路径,尝试类似
!df-h/opt
的方法,当您使用
估计器训练模型时,它可能是不够的。您可以在构造函数上使用
训练卷大小
参数来增加此值。尝试使用较大的数字(如100GB)然后看看你的模型有多大。在以后的工作中,你可以把价值调整到更接近你实际需要的东西


存储成本。部分使用是按比例分配的,因此给自己一些额外的空间是防止存储空间不足的廉价保险。

您能否提供有关
模型
的确切对象类型的更多信息?如果它是MXNet模型,则可以使用直接将其保存到S3存储桶中。