Tensorflow AWS SageMaker:CapacityError:无法设置请求的ML计算容量。_Tensorflow_Keras_Amazon Sagemaker

Tensorflow AWS SageMaker:CapacityError:无法设置请求的ML计算容量。

tensorflow keras

Tensorflow AWS SageMaker:CapacityError:无法设置请求的ML计算容量。,tensorflow,keras,amazon-sagemaker,Tensorflow,Keras,Amazon Sagemaker,我们正在运行两个类型为（1）ml.p3.8xlarge和（2）ml.p3.2xlarge的TrainingJob实例每个培训作业都使用Tensorflow和Keras后端运行自定义算法实例（1）运行正常，而实例（2）在报告的1小时训练时间后，在CloudWatch中进行任何登录（任何文本拖日志），退出时出现以下错误： Failure reason CapacityError: Unable to provision requested ML compute capacity. Please

我们正在运行两个类型为（1）ml.p3.8xlarge和（2）ml.p3.2xlarge的TrainingJob实例

每个培训作业都使用Tensorflow和Keras后端运行自定义算法

实例（1）运行正常，而实例（2）在报告的1小时训练时间后，在CloudWatch中进行任何登录（任何文本拖日志），退出时出现以下错误：

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定此消息的含义。

此消息表示SageMaker尝试启动实例，但EC2没有足够的此实例容量，因此在等待一段时间（在本例中为1小时）后，SageMaker放弃了培训工作并失败

有关ec2容量问题的更多信息，请访问：

要解决此问题，您可以按照失败原因中的建议尝试运行具有不同实例类型的作业，或者等待几分钟，然后按照EC2的建议再次提交请求。

此消息表示SageMaker试图启动实例，但EC2没有足够的此实例容量，因此等待了一段时间（在本例中为1小时）SageMaker放弃了培训，未能通过培训

有关ec2容量问题的更多信息，请访问：

要解决这个问题，您可以按照失败原因中的建议尝试运行具有不同实例类型的作业，或者等待几分钟，然后按照EC2的建议再次提交请求