Linux 如何避免Slurm群集上的内存不足错误

Linux 如何避免Slurm群集上的内存不足错误,linux,hpc,slurm,cgroups,Linux,Hpc,Slurm,Cgroups,避免由于OOM错误导致进程死机的最佳方法是什么,而无需多次运行该进程以测试不同的内存约束?我是否可以为slurm设置软内存限制以动态分配更多内存 我想到的最好的办法是使用较大的内存限制并允许进程共享资源,但我想知道是否有更好的方法来防止进程被OOM错误杀死

避免由于OOM错误导致进程死机的最佳方法是什么,而无需多次运行该进程以测试不同的内存约束?我是否可以为slurm设置软内存限制以动态分配更多内存

我想到的最好的办法是使用较大的内存限制并允许进程共享资源,但我想知道是否有更好的方法来防止进程被OOM错误杀死