Amazon web services 让我们一起来“slurmctld”;“思考”;节点处于空闲状态~like after";“SuspendProgram”;,但事实上,当它开始的时候,它们已经倒下了

Amazon web services 让我们一起来“slurmctld”;“思考”;节点处于空闲状态~like after";“SuspendProgram”;,但事实上,当它开始的时候,它们已经倒下了,amazon-web-services,amazon-ec2,slurm,Amazon Web Services,Amazon Ec2,Slurm,是否有一种方法可以在执行节点关闭的情况下启动slurmctld守护程序,但要让它相信他已经为这些节点请求了挂起(例如,如果它调用了SuspendProgram) 我正在设置一个虚拟群集,因此SuspendProgram和ResumeProgram会终止并实例化虚拟机。通过这种方式,我可以只打开主节点的电源,他只会在请求时启动节点 现在的问题是,当我开始slurmctld时,我需要节点站起来,告诉他它们退出,然后等待他关闭它们。这增加了不必要的成本,因为我需要打开所有“假定”实例的电源 我想实例化

是否有一种方法可以在执行节点关闭的情况下启动slurmctld守护程序,但要让它相信他已经为这些节点请求了挂起(例如,如果它调用了SuspendProgram)

我正在设置一个虚拟群集,因此SuspendProgram和ResumeProgram会终止并实例化虚拟机。通过这种方式,我可以只打开主节点的电源,他只会在请求时启动节点

现在的问题是,当我开始slurmctld时,我需要节点站起来,告诉他它们退出,然后等待他关闭它们。这增加了不必要的成本,因为我需要打开所有“假定”实例的电源

我想实例化运行slurmctld的master,让他认为节点在SuspendProgram之后是空闲的


Cheers

您可以尝试的是在
slurm.conf
中将节点设置为状态
POWER\u DOWN
,这样在启动时,
slurmctld
将看到这些节点被
SuspendProgram
关闭

NodeName=... Sockets=... CoresPerSocket... [etc] State=POWER_DOWN