如何列出挂起的mpi作业

如何列出挂起的mpi作业,mpi,jobs,mpich,Mpi,Jobs,Mpich,我正在使用mpiexec(mpich2)运行一些作业。 mpiexec进程以非零状态退出,留下一些工作进程 我可以打印正在运行的子作业列表: $ps aux | grep mpi 是否有其他方法列出正在运行/挂起的作业?这可能会对您有所帮助:ps aux | grep MPICH如果MPI离开了一个僵尸进程(这很奇怪,这真的不应该发生),它将被命名为您最初执行的可执行文件的名称。因此,如果您的计划开始于: mpiexec -n 4 ./a.out 然后,您需要搜索 ps aux | grep

我正在使用
mpiexec
(mpich2)运行一些作业。
mpiexec
进程以非零状态退出,留下一些工作进程

我可以打印正在运行的子作业列表:

$ps aux | grep mpi

是否有其他方法列出正在运行/挂起的作业?

这可能会对您有所帮助:ps aux | grep MPICH

如果MPI离开了一个僵尸进程(这很奇怪,这真的不应该发生),它将被命名为您最初执行的可执行文件的名称。因此,如果您的计划开始于:

mpiexec -n 4 ./a.out
然后,您需要搜索

ps aux | grep a.out

这将为您提供仍然存在的所有流程的列表。您所建议的通常不起作用的原因是,如果
mpirun
mpiexec
进程已消失(由于崩溃或完成),您显然无法继续搜索它。然而,由于某种原因,孩子们可能仍然在身边。

由MPICH启动的任何程序实际上都没有将MPICH作为进程的名称。它们的可执行文件称为
mpiexec
mpirun