Linux SLURM:分配所有GPU后,不能再提交cpu作业
我们刚刚开始使用slurm来管理我们的GPU(目前只有2个)。我们使用ubuntu 14.04和slurm llnl。我已经配置了gres.conf和Linux SLURM:分配所有GPU后,不能再提交cpu作业,linux,ubuntu,gpu,nvidia,slurm,Linux,Ubuntu,Gpu,Nvidia,Slurm,我们刚刚开始使用slurm来管理我们的GPU(目前只有2个)。我们使用ubuntu 14.04和slurm llnl。我已经配置了gres.conf和srunworks。 问题是,如果我使用--gres=gpu:1运行两个作业,那么两个gpu将成功分配,作业将开始运行;现在,我希望能够在不使用--gres=GPU:1的情况下运行更多的作业(除了2个GPU作业),但这是不可能的 错误消息表示它无法分配所需的资源(即使有24个CPU核) 这是我的gres.conf: Name=gpu Type=t
srun
works。
问题是,如果我使用--gres=gpu:1
运行两个作业,那么两个gpu将成功分配,作业将开始运行;现在,我希望能够在不使用--gres=GPU:1
的情况下运行更多的作业(除了2个GPU作业),但这是不可能的
错误消息表示它无法分配所需的资源(即使有24个CPU核)
这是我的gres.conf:
Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]
谢谢你的帮助。谢谢。确保配置中的
SelectType
为CR\u CPU
或CR\u Core
,并且分区的共享
选项未设置为独占
。否则Slurm会将完整节点分配给作业。如果在gres配置中指定CPU,并留下一些供其他分配使用,您是否尝试过会发生什么?