Cluster computing 正在运行多个工作进程SLURM

Cluster computing 正在运行多个工作进程SLURM,cluster-computing,distributed-computing,distributed-system,slurm,Cluster Computing,Distributed Computing,Distributed System,Slurm,我想在一台机器上运行多个工作进程。根据答案就可以做到。问题是目前我只能在一台机器上执行1个工作进程守护进程。比如说 SlurmdLogFile=/var/log/slurm/slurmd.log SlurmdPidFile=/var/run/slurmd.pid SlurmdSpoolDir=/var/spool/slurmd 当我跑的时候 sudo slurmd -N linux1 -cDvv sudo slurmd -N linux2 -cDvv 当我运行linux2时,linux1会下

我想在一台机器上运行多个工作进程。根据答案就可以做到。问题是目前我只能在一台机器上执行1个工作进程守护进程。比如说

SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
当我跑的时候

sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv
当我运行linux2时,linux1会下降。是否可以在一台计算机上运行多个工作进程?
这是我的文件

因为您的目的似乎只是测试Slurm的行为,所以我建议您使用前端模式,您可以在同一台机器中创建虚拟计算节点

在其中,您有更多详细信息,但基本上您必须配置安装以使用此模式:

./configure --enable-front-end  
并在slurm.conf中配置节点

在该指南中,他们还解释了如何通过更改端口在同一节点中启动多个真正的守护进程,但出于测试目的,没有必要这样做


祝你好运

我遇到了与您相同的问题,我通过修改上面提到的日志文件路径来解决它。 例如,在slurm.conf中

SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
一定是

SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n
现在您可以启动多个slurmd

注意:我试过使用slurm conf,我认为缺少一些参数,比如定义两个NodeName而不是一个,并为每个节点添加要使用的端口。 这对我有用

# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1  Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11  Default=YES MaxTime=INFINITE State=UP 

我如上所述配置了安装,但仍然只有一个工作进程守护进程在运行。@PaulSchimmer是的!但它模拟所有节点。尝试执行一个
sinfo
,您就会看到。我一直面临以下错误:
连接127.0.1.1的slurm stream套接字时出错::连接被拒绝
原因可能是什么?