Cluster computing SLURM:什么是重新申请的状态?

Cluster computing SLURM:什么是重新申请的状态?,cluster-computing,slurm,Cluster Computing,Slurm,SLURM中的重新查询状态是什么?我在(搜索“状态列表”)中找不到它的任何提及 我正在调查为什么我的集群中的某些作业被取消/重新查询。默认假设是优先级(QOS)抢占。但它似乎发生的方式比它应该发生的要多。我试着调查这些工作是否被抢占了: sacct --allusers --qos=normal --state=PREEMPTED --starttime=2017-06-1 --duplicates --format=jobid,elapsed,qos,user,state,exitcode

SLURM中的重新查询状态是什么?我在(搜索“状态列表”)中找不到它的任何提及

我正在调查为什么我的集群中的某些作业被取消/重新查询。默认假设是优先级(QOS)抢占。但它似乎发生的方式比它应该发生的要多。我试着调查这些工作是否被抢占了:

sacct --allusers --qos=normal --state=PREEMPTED --starttime=2017-06-1 --duplicates --format=jobid,elapsed,qos,user,state,exitcode
结果非常少,而且最近报告了大量抢占的用户的工作也没有


当我尝试搜索其中一个用户的作业的sacct信息时,许多作业都处于重新查询状态。因此,似乎先发制人不是问题所在,但我很难弄清楚真正的问题是什么。

我看到prolog失败后,乔布斯重新获得了职位。但随后节点被抽干。是这样吗?我不熟悉prolog/epilog,但我不认为这与节点耗尽有关。我见过prolog失败时重新计算作业。但随后节点被抽干。是这样吗?我不熟悉prolog/epilog,但我不认为这与节点排水有关。