Amazon web services 如何快速调试SageMaker培训脚本？_Amazon Web Services_Tensorflow_Machine Learning_Amazon Sagemaker

Amazon web services 如何快速调试SageMaker培训脚本？

amazon-web-services tensorflow machine-learning

Amazon web services 如何快速调试SageMaker培训脚本？,amazon-web-services,tensorflow,machine-learning,amazon-sagemaker,Amazon Web Services,Tensorflow,Machine Learning,Amazon Sagemaker,在Amazon SageMaker中运行ML培训作业时，将“部署”培训脚本并提供一个ML培训实例，这需要大约10分钟的时间来启动并获取所需的数据我只能从培训作业中得到一条错误消息，然后它就会消失，实例也随之消失在修改培训脚本以修复它之后，我需要部署并运行它，这需要大约10分钟的时间我怎样才能更快地完成这项任务，或者让培训实例保持运行？您似乎正在使用SageMaker框架之一运行培训作业。因此，您可以使用SageMaker的“本地模式”功能，它将在笔记本实例中本地运行您的培训作业（特别是容器

在Amazon SageMaker中运行ML培训作业时，将“部署”培训脚本并提供一个ML培训实例，这需要大约10分钟的时间来启动并获取所需的数据

我只能从培训作业中得到一条错误消息，然后它就会消失，实例也随之消失

在修改培训脚本以修复它之后，我需要部署并运行它，这需要大约10分钟的时间

我怎样才能更快地完成这项任务，或者让培训实例保持运行？

您似乎正在使用SageMaker框架之一运行培训作业。因此，您可以使用SageMaker的“本地模式”功能，它将在笔记本实例中本地运行您的培训作业（特别是容器）。这样，您就可以在脚本上迭代，直到它工作为止。然后，如果需要，您可以转到远程培训集群，针对整个数据集培训模型。要使用本地模式，只需将实例类型设置为“本地”。有关本地模式的更多详细信息，请访问和博客帖子：

如果您使用TF、MXNet、Pytorch或Chainer，本地模式确实是一种更快的迭代方式。一个更快的解决方案是使用玩具数据集在本地机器上编码和调试，确保训练/预测代码在移动到SageMaker之前正确运行。您甚至可以使用与SageMaker相同的容器，因为它们都是开源的，例如

如果您使用的是自定义容器，那么在将其推送到ECR并与SageMaker一起使用之前，您也可以在本地工作

如果您使用的是内置的algo，那么除了使用SageMaker管理的实例进行训练/预测之外，别无选择。但是，在本例中，您没有编写ML代码，因此不会出现问题：）

Amazon SageMaker现在提供了一种使用称为SageMaker Debugger的新功能调试机器学习模型的方法。此功能将允许您捕获流经计算图的张量并实时分析它们。根据实时分析的结果，可以选择停止训练作业，并以交互方式单独分析张量，以调试模型

见：