Cluster computing SLURM节点分配顺序不总是遵循权重设置

Cluster computing SLURM节点分配顺序不总是遵循权重设置,cluster-computing,slurm,Cluster Computing,Slurm,我们有一个由25个节点组成的小型集群运行Slurm,其中的节点可以分为许多类别,因为所有节点都不相同。我们有较大/强大的节点和较小/较弱的节点。 大多数情况下,所有这些节点基本上都在一个分区中,我们使用各种作业请求设置来指定作业获取的节点。 我们还在所有节点上使用权重设置,以便小作业首先进入小/弱节点,而不是占用较大节点上的空间。 问题是:如果节点处于打开状态,(我们使用Slurm的节能功能关闭未使用的节点),它将按预期工作。小作业将转到小节点。 但是,如果节点处于禁用状态(当前没有节点可以启用

我们有一个由25个节点组成的小型集群运行Slurm,其中的节点可以分为许多类别,因为所有节点都不相同。我们有较大/强大的节点和较小/较弱的节点。
大多数情况下,所有这些节点基本上都在一个分区中,我们使用各种作业请求设置来指定作业获取的节点。 我们还在所有节点上使用权重设置,以便小作业首先进入小/弱节点,而不是占用较大节点上的空间。
问题是:如果节点处于打开状态,(我们使用Slurm的节能功能关闭未使用的节点),它将按预期工作。小作业将转到小节点。
但是,如果节点处于禁用状态(当前没有节点可以启用),则指定的节点似乎会忽略权重设置,并且似乎会转到任何位置一个小作业可能最终被分配到一个大节点并切换到该节点。当某些节点处于打开状态,但在使用中,而其他节点处于关闭状态时,它似乎显示得最多。

有人能解释一下吗?

更新:我们从未解决过这个问题。但是,由于集群现在已扩展到80多个节点,并且使用率更高,因此我们禁用了节能功能,因此所有节点都始终处于打开状态。如上所述,当节点处于打开状态时,它们可以正常工作。因此,这有效地解决了问题,而没有解决它。更新:我们从未解决过这个问题。但是,由于集群现在已扩展到80多个节点,并且使用率更高,因此我们禁用了节能功能,因此所有节点都始终处于打开状态。如上所述,当节点处于打开状态时,它们可以正常工作。因此,这有效地解决了问题,而没有解决它。