Amazon web services 如何快速调试SageMaker培训脚本?

Amazon web services 如何快速调试SageMaker培训脚本?,amazon-web-services,tensorflow,machine-learning,amazon-sagemaker,Amazon Web Services,Tensorflow,Machine Learning,Amazon Sagemaker,在Amazon SageMaker中运行ML培训作业时,将“部署”培训脚本并提供一个ML培训实例,这需要大约10分钟的时间来启动并获取所需的数据 我只能从培训作业中得到一条错误消息,然后它就会消失,实例也随之消失 在修改培训脚本以修复它之后,我需要部署并运行它,这需要大约10分钟的时间 我怎样才能更快地完成这项任务,或者让培训实例保持运行?您似乎正在使用SageMaker框架之一运行培训作业。因此,您可以使用SageMaker的“本地模式”功能,它将在笔记本实例中本地运行您的培训作业(特别是容器

在Amazon SageMaker中运行ML培训作业时,将“部署”培训脚本并提供一个ML培训实例,这需要大约10分钟的时间来启动并获取所需的数据

我只能从培训作业中得到一条错误消息,然后它就会消失,实例也随之消失

在修改培训脚本以修复它之后,我需要部署并运行它,这需要大约10分钟的时间


我怎样才能更快地完成这项任务,或者让培训实例保持运行?

您似乎正在使用SageMaker框架之一运行培训作业。因此,您可以使用SageMaker的“本地模式”功能,它将在笔记本实例中本地运行您的培训作业(特别是容器)。这样,您就可以在脚本上迭代,直到它工作为止。然后,如果需要,您可以转到远程培训集群,针对整个数据集培训模型。要使用本地模式,只需将实例类型设置为“本地”。有关本地模式的更多详细信息,请访问和博客帖子:

如果您使用TF、MXNet、Pytorch或Chainer,本地模式确实是一种更快的迭代方式。一个更快的解决方案是使用玩具数据集在本地机器上编码和调试,确保训练/预测代码在移动到SageMaker之前正确运行。您甚至可以使用与SageMaker相同的容器,因为它们都是开源的,例如

如果您使用的是自定义容器,那么在将其推送到ECR并与SageMaker一起使用之前,您也可以在本地工作


如果您使用的是内置的algo,那么除了使用SageMaker管理的实例进行训练/预测之外,别无选择。但是,在本例中,您没有编写ML代码,因此不会出现问题:)

Amazon SageMaker现在提供了一种使用称为SageMaker Debugger的新功能调试机器学习模型的方法。此功能将允许您捕获流经计算图的张量并实时分析它们。根据实时分析的结果,可以选择停止训练作业,并以交互方式单独分析张量,以调试模型

见: