Tensorflow AWS SageMaker:CapacityError:无法设置请求的ML计算容量。
我们正在运行两个类型为(1)ml.p3.8xlarge和(2)ml.p3.2xlarge的TrainingJob实例 每个培训作业都使用Tensorflow和Keras后端运行自定义算法 实例(1)运行正常,而实例(2)在报告的1小时训练时间后,在CloudWatch中进行任何登录(任何文本拖日志),退出时出现以下错误:Tensorflow AWS SageMaker:CapacityError:无法设置请求的ML计算容量。,tensorflow,keras,amazon-sagemaker,Tensorflow,Keras,Amazon Sagemaker,我们正在运行两个类型为(1)ml.p3.8xlarge和(2)ml.p3.2xlarge的TrainingJob实例 每个培训作业都使用Tensorflow和Keras后端运行自定义算法 实例(1)运行正常,而实例(2)在报告的1小时训练时间后,在CloudWatch中进行任何登录(任何文本拖日志),退出时出现以下错误: Failure reason CapacityError: Unable to provision requested ML compute capacity. Please
Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.
我不确定此消息的含义。此消息表示SageMaker尝试启动实例,但EC2没有足够的此实例容量,因此在等待一段时间(在本例中为1小时)后,SageMaker放弃了培训工作并失败 有关ec2容量问题的更多信息,请访问:
要解决此问题,您可以按照失败原因中的建议尝试运行具有不同实例类型的作业,或者等待几分钟,然后按照EC2的建议再次提交请求。此消息表示SageMaker试图启动实例,但EC2没有足够的此实例容量,因此等待了一段时间(在本例中为1小时)SageMaker放弃了培训,未能通过培训 有关ec2容量问题的更多信息,请访问: 要解决这个问题,您可以按照失败原因中的建议尝试运行具有不同实例类型的作业,或者等待几分钟,然后按照EC2的建议再次提交请求