Parallel processing slurm控制器在被其他用户使用时经常处于忙碌状态
我对SLURM还比较陌生:我使用的网格有许多不同的用户,当他们提交或取消作业时,似乎其他用户无法查询分区状态等。这非常令人沮丧,尤其是在创建产生其他作业的作业时,因为它们最终会因控制器忙而失败。有人知道解决方法吗?使用默认设置,当许多用户同时提交/修改/取消多个作业时,Slurm可能会变慢/挂起,尤其是启用了回填和记帐Parallel processing slurm控制器在被其他用户使用时经常处于忙碌状态,parallel-processing,slurm,Parallel Processing,Slurm,我对SLURM还比较陌生:我使用的网格有许多不同的用户,当他们提交或取消作业时,似乎其他用户无法查询分区状态等。这非常令人沮丧,尤其是在创建产生其他作业的作业时,因为它们最终会因控制器忙而失败。有人知道解决方法吗?使用默认设置,当许多用户同时提交/修改/取消多个作业时,Slurm可能会变慢/挂起,尤其是启用了回填和记帐 请参阅2012年Slurm用户组会议上的改进提示。请注意,我不是系统管理员。。作为一个用户,我能做些什么吗?除了每次发生时都向系统管理员报告之外,我认为你能做的不多。您可以尝试通
请参阅2012年Slurm用户组会议上的改进提示。请注意,我不是系统管理员。。作为一个用户,我能做些什么吗?除了每次发生时都向系统管理员报告之外,我认为你能做的不多。您可以尝试通过重试失败的提交来使脚本更加健壮。或者,您可以尝试一次提交多个具有依赖关系的作业(当工作顺利进行时),而不是让一个作业生成其他作业。