Linux 如何使用SLURM获取GPU(GRES)分配报告
我在slurm文档中读到了我们可以使用的内容(在设置会计后)Linux 如何使用SLURM获取GPU(GRES)分配报告,linux,gpu,nvidia,slurm,Linux,Gpu,Nvidia,Slurm,我在slurm文档中读到了我们可以使用的内容(在设置会计后) sacct--format=“JobID,allocpus,**ReqGRES**来获取GRES请求的统计信息。我也用GRES.conf配置了我的gpu(有2个),但是这个命令对于ReqGRES或AllocGRES总是返回0。有什么想法吗? 提前感谢有很多原因,我认为您不是root用户sacct只显示用户的作业登录,或者您必须添加选项-a,或者您的配置文件slurm.conf或slurm的日志文件有问题,需要检查 sacct-a-X-
sacct--format=“JobID,allocpus,**ReqGRES**
来获取GRES请求的统计信息。我也用GRES.conf配置了我的gpu(有2个),但是这个命令对于ReqGRES
或AllocGRES
总是返回0。有什么想法吗?
提前感谢有很多原因,我认为您不是root用户sacct只显示用户的作业登录,或者您必须添加选项-a,或者您的配置文件slurm.conf或slurm的日志文件有问题,需要检查 sacct-a-X--format=JobID,allocpus,requgres
它可以工作。我总是觉得这些报告在sreport中非常有用。只需像gres.conf slurm.conf中那样指定tre即可
$sreport -tminper cluster utilization --tres="gres/gpu" start=2019-05-01T00:00:00
--------------------------------------------------------------------------------
Cluster Utilization 2019-05-01T00:00:00 - 2019-05-14T23:59:59
Usage reported in TRES Minutes/Percentage of Total
--------------------------------------------------------------------------------
Cluster TRES Name Allocated Down PLND Down Idle Reserved Reported
--------- -------------- ----------------- ----------------- ----------------- ----------------- ----------------- ------------------
gpugrid+ gres/gpu 8186500(70.06%) 17889(0.96%) 0(0.00%) 1289051(22.97%) 0(0.00%) 9693440(100.00%)
您还可以按用户、按GRE执行,例如--tres=“gres/gpu:v100”(configureslurm.conf)等