Amazon web services 如何使用SLURM停止计算节点?
我正在AWS上使用SLURM作为AWS并行集群的一部分来管理作业。我有两个问题:Amazon web services 如何使用SLURM停止计算节点?,amazon-web-services,slurm,amazon-parallelcluster,Amazon Web Services,Slurm,Amazon Parallelcluster,我正在AWS上使用SLURM作为AWS并行集群的一部分来管理作业。我有两个问题: 使用scancel*jobid*取消作业时,关联节点不会停止。我怎样才能做到这一点 开始时,我犯了一个错误,没有使脚本可执行,因此sbatch*script.sh*工作,但计算节点什么也没做。我如何识别这种行为并妥善处理?例如,在一段时间后停止空闲节点并将其输出到日志中是否合适?我怎样才能做到这一点 在文档中查看此页面: 最重要的是,在scaledown_idletime(默认设置为10分钟)以上的时间段内没有作
- 使用
取消作业时,关联节点不会停止。我怎样才能做到这一点scancel*jobid*
- 开始时,我犯了一个错误,没有使脚本可执行,因此
工作,但计算节点什么也没做。我如何识别这种行为并妥善处理?例如,在一段时间后停止空闲节点并将其输出到日志中是否合适?我怎样才能做到这一点sbatch*script.sh*
如果10分钟太长,您可以在构建集群时调整配置文件中的设置。首先考虑一下您的工作负载,因为您不希望作业之间的小延迟在等待节点死亡后不久再次创建时造成大量的混乱,因此需要10分钟的时间。对于第二个问题,作业是否仍在队列中?还是它“完成”了,队列中没有更多的作业?在这两种情况下,如果作业已退出,您应该使用
sacct
,或者如果作业正在运行,则使用slist
,从Slurm获取有关进程发生了什么的日志。