Linux SLURM:分配所有GPU后,不能再提交cpu作业

Linux SLURM:分配所有GPU后,不能再提交cpu作业,linux,ubuntu,gpu,nvidia,slurm,Linux,Ubuntu,Gpu,Nvidia,Slurm,我们刚刚开始使用slurm来管理我们的GPU(目前只有2个)。我们使用ubuntu 14.04和slurm llnl。​我已经配置了gres.conf和srunworks。 问题是,如果我使用--gres=gpu:1运行两个作业,那么两个gpu将成功分配,作业将开始运行;现在,我希望能够在不使用--gres=GPU:1的情况下运行更多的作业(除了2个GPU作业),但这是不可能的 错误消息表示它无法分配所需的资源(即使有24个CPU核) 这是我的gres.conf: Name=gpu Type=t

我们刚刚开始使用slurm来管理我们的GPU(目前只有2个)。我们使用ubuntu 14.04和slurm llnl。​我已经配置了gres.conf和
srun
works。 问题是,如果我使用
--gres=gpu:1
运行两个作业,那么两个gpu将成功分配,作业将开始运行;现在,我希望能够在不使用
--gres=GPU:1
的情况下运行更多的作业(除了2个GPU作业),但这是不可能的

错误消息表示它无法分配所需的资源(即使有24个CPU核)

这是我的gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

谢谢你的帮助。谢谢。

确保配置中的
SelectType
CR\u CPU
CR\u Core
,并且分区的
共享
选项未设置为
独占
。否则Slurm会将完整节点分配给作业。

如果在gres配置中指定CPU,并留下一些供其他分配使用,您是否尝试过会发生什么?