MPI检查点使用

MPI检查点使用,mpi,checkpoint,Mpi,Checkpoint,我想利用MPI检查点功能来保存我的作业。根据 我应该能够将SIGUSR1发送到mpiexec(在我的情况下,我将它发送到mpirun)以触发检查点。但是,当我这样做时,我看不到任何保存在我的检查点目录中的文件,这些文件是我用-ckpoint前缀指定的 这是我的mpirun-info输出 HYDRA构建详细信息: 版本:4.1更新1 发布日期:20130522 流程经理:pmi 可用的引导服务器:ssh rsh fork slurm srun ll llspawn.stdio lsf blaun

我想利用MPI检查点功能来保存我的作业。根据

我应该能够将SIGUSR1发送到mpiexec(在我的情况下,我将它发送到mpirun)以触发检查点。但是,当我这样做时,我看不到任何保存在我的检查点目录中的文件,这些文件是我用-ckpoint前缀指定的

这是我的mpirun-info输出

HYDRA构建详细信息:
版本:4.1更新1
发布日期:20130522
流程经理:pmi
可用的引导服务器:ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi
可用的资源管理内核:slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs
可用的检查点库:blcr
解复用引擎可用:轮询选择

我的命令行是:

mpirun-ckpointlib blcr-ckpoint前缀/home/user/temp/ckpoint-ckpoint间隔1800-np 274$PROGPATH/myapp


我发送信号的方式是kill-s USR1 1900,1900是miprun的pid。每当我发送信号时,程序就会结束。不过没有撞车。有人有过MPI检查点的经验吗?

我想我知道了。我将USR1发送到mpirun,但应该将其发送到mpiexec.hydra。尽管一些在线文章说mpirun和mpiexec是一回事