Amazon web services GPU上的AWS SageMaker_Amazon Web Services_Tensorflow_Amazon Sagemaker

Amazon web services GPU上的AWS SageMaker

amazon-web-services tensorflow

Amazon web services GPU上的AWS SageMaker,amazon-web-services,tensorflow,amazon-sagemaker,Amazon Web Services,Tensorflow,Amazon Sagemaker,我正在尝试在AWS上训练神经网络（Tensorflow）。我有一些AWS学分。据我所知，SageMaker是最适合这份工作的。我设法在SageMaker上加载Jupyter实验室控制台，并试图找到一个GPU内核，因为我知道它最适合训练神经网络。但是，我找不到这样的内核有谁能在这方面提供帮助吗谢谢并致以最良好的问候 Michael您可以通过两个不同的组件在SageMaker生态系统中的GPU上训练模型：您可以实例化由GPU供电的，例如p2.xlarge（NVIDIA K80）或p3.2xla

我正在尝试在AWS上训练神经网络（Tensorflow）。我有一些AWS学分。据我所知，SageMaker是最适合这份工作的。我设法在SageMaker上加载Jupyter实验室控制台，并试图找到一个GPU内核，因为我知道它最适合训练神经网络。但是，我找不到这样的内核

有谁能在这方面提供帮助吗

谢谢并致以最良好的问候

Michael

您可以通过两个不同的组件在SageMaker生态系统中的GPU上训练模型：

您可以实例化由GPU供电的，例如

p2.xlarge

（NVIDIA K80）或

p3.2xlarge

（NVIDIA V100）。这对于交互式开发非常方便-您的笔记本电脑下有GPU，可以在GPU上交互运行代码，并通过终端选项卡中的

nvidia smi

监控GPU-这是一种很棒的开发体验。但是，当您直接使用GPU驱动的机器进行开发时，有时您可能不使用GPU。例如，当您编写代码或浏览某些文档时。一直以来，你都在为闲置的GPU付费。在这方面，对于您的用例来说，它可能不是最具成本效益的选择

另一种选择是使用在GPU实例上运行的。这是培训的首选选项，因为培训元数据（数据和模型路径、超参数、集群规范等）保存在SageMaker元数据存储中，日志和指标存储在Cloudwatch中，实例在培训结束时自动关闭。在小型CPU实例上开发并使用SageMaker training API启动培训任务将帮助您充分利用预算，同时帮助您保留所有实验的元数据和工件。你可以看到

当您创建一个新的jupyter笔记本实例时，您必须选择要使用的机器，此时您必须指定gpu实例。在这里看看gpu实例类型：您可以做的另一件事是启动一个非gpu jupyter笔记本实例并编写代码，然后在创建培训作业时，传递作业所需的gpu实例。