OpenMPI容错

OpenMPI容错,mpi,openmpi,fault-tolerance,Mpi,Openmpi,Fault Tolerance,我的任务是在OpenMPI应用程序中实现简单的容错。我们面临的问题是,尽管将MPI错误处理设置为MPI\u ERRORS\u RETURN,但当我们的一个节点从集群中拔出时,在长时间挂起后的下一次MPI\u调用中,我们会收到以下错误: [btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110) 我由此得出的结论是,当一个节点使用OpenMP

我的任务是在OpenMPI应用程序中实现简单的容错。我们面临的问题是,尽管将MPI错误处理设置为
MPI\u ERRORS\u RETURN
,但当我们的一个节点从集群中拔出时,在长时间挂起后的下一次MPI\u调用中,我们会收到以下错误:

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)
我由此得出的结论是,当一个节点使用OpenMPI从网络中断开时,不可能在所有其他节点上继续处理。有人能帮我确认这一点,或者为我指出防止btl_tcp_端点错误的方向吗


我们使用的是OpenMPI版本1.6.5。

在OpenMPI中,MPI错误返回代码路径没有经过很好的测试(可能没有得到很好的实现)。他们只是没有优先考虑,所以我们从来没有在这方面做过很多工作


抱歉。

在OpenMPI中,MPI\u错误\u返回代码路径没有经过很好的测试(可能没有得到很好的实现)。他们只是没有优先考虑,所以我们从来没有在这方面做过很多工作


抱歉。

在OpenMPI中,MPI\u错误\u返回代码路径没有经过很好的测试(可能没有得到很好的实现)。他们只是没有优先考虑,所以我们从来没有在这方面做过很多工作


抱歉。

在OpenMPI中,MPI\u错误\u返回代码路径没有经过很好的测试(可能没有得到很好的实现)。他们只是没有优先考虑,所以我们从来没有在这方面做过很多工作

对不起