Ubuntu 通过共享NFS驱动器在SLURM上运行MPI

Ubuntu 通过共享NFS驱动器在SLURM上运行MPI,ubuntu,mpi,slurm,Ubuntu,Mpi,Slurm,我已经从我的头节点(node0)设置了一个NFS同步驱动器,并将该驱动器安装到我的工作节点(node1…node3)。我使用这个同步驱动器作为用户通过SLURM运行作业的“抓取”。此外,我还使用它来安装共享程序,例如通过node0编译和安装的mpich3.2 我注意到,通过SLURM运行MPI作业时,只要node0是主机节点,该作业就会执行。如果我将作业提交给其他节点(例如node2和node3,其中node2是主机),则作业不会执行。如何使其在其他节点上运行以释放头部节点 编辑:ff。是通过S

我已经从我的头节点(node0)设置了一个NFS同步驱动器,并将该驱动器安装到我的工作节点(node1…node3)。我使用这个同步驱动器作为用户通过SLURM运行作业的“抓取”。此外,我还使用它来安装共享程序,例如通过node0编译和安装的mpich3.2

我注意到,通过SLURM运行MPI作业时,只要node0是主机节点,该作业就会执行。如果我将作业提交给其他节点(例如node2和node3,其中node2是主机),则作业不会执行。如何使其在其他节点上运行以释放头部节点

编辑:ff。是通过SLURM运行时MPI作业的输出:

srun: error: timeout waiting for task launch, started 1 of 2 tasks
srun: Job step 4118.0 aborted before step completely launched.
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
slurmstepd: *** STEP 4118.0 ON node2 CANCELLED AT 2018-05-21T20:24:29 ***
srun: error: node2: task 0: Killed
[mpiexec@node2] control_cb (pm/pmiserv/pmiserv_cb.c:208): assert (!closed) failed
[mpiexec@node2] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[mpiexec@node2] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:198): error waiting for event
[mpiexec@node2] main (ui/mpich/mpiexec.c:340): process manager

你需要提供更多的信息。“作业不执行”是什么意思?您是否尝试过不发出声音地执行它?@siserte是的,我已经在node2上直接执行mpiexec并成功调用所需的处理器,即mpiexec-n 8-hosts node2、node3。/mpi-hello@GillesGouaillardet我已经在运行时添加了MPI作业的输出SLURM@DmitriChubarov对我可以将无密码ssh从node2连接到node3。但仍然不起作用:(