在AWS Sagemaker和AWS Fargate上运行Dask时出现问题

在AWS Sagemaker和AWS Fargate上运行Dask时出现问题,dask,amazon-sagemaker,dask-distributed,aws-fargate,Dask,Amazon Sagemaker,Dask Distributed,Aws Fargate,我正在尝试在AWS上设置一个集群,以便使用dask运行分布式sklearn模型培训。为了开始,我尝试遵循本教程,希望对其进行调整: 我已经成功地将docker容器推送到AWS ECR,然后启动CloudFormation模板在AWS Fargate上构建集群。本教程的下一步是启动AWS Sagemaker笔记本。我已经试过了,但有些东西不起作用,因为当我运行命令时,我会看到错误的图片。问题可能是什么?是否与专有网络/子网相关?是否与AWS Sagemaker互联网接入相关?我已尝试启用和禁用此功

我正在尝试在AWS上设置一个集群,以便使用dask运行分布式sklearn模型培训。为了开始,我尝试遵循本教程,希望对其进行调整:

我已经成功地将docker容器推送到AWS ECR,然后启动CloudFormation模板在AWS Fargate上构建集群。本教程的下一步是启动AWS Sagemaker笔记本。我已经试过了,但有些东西不起作用,因为当我运行命令时,我会看到错误的图片。问题可能是什么?是否与专有网络/子网相关?是否与AWS Sagemaker互联网接入相关?我已尝试启用和禁用此功能

预期结果:dask将更新,Fargate集群的扩展将正常工作


实际结果:以上都没有。

在我的例子中,当运行相同的教程时,DaskSchedulerService需要花费太长时间才能完成。创造开始了,但从未结束。 5-6小时后,我得到以下信息:

Dask调度程序服务创建失败Dask调度程序未稳定


workers没有运行,因此无法连接到客户端。

然后我转向本教程,在Fargate中启动Dask,这在一定程度上取得了成功。