Parallel processing 在群集上运行MPI作业时出错

Parallel processing 在群集上运行MPI作业时出错,parallel-processing,mpi,infiniband,Parallel Processing,Mpi,Infiniband,我运行的代码在集群上运行得非常好, 当我将核心数增加到3844时,我得到以下错误: 向0x0040:0x00152080发送消息的重试次数太多,放弃 这个错误是网络问题吗?或者这与代码有关 不幸的是,我不能在这里发布整个代码,因为它相当大 谢谢您有足够的内核吗?我假设您正在使用qsub将作业发送到群集,您可以请求的核心/机器数量是否有限制是的,限制远大于我请求的数量,slurm拒绝提交超出允许限制的内容您是此群集的管理员吗?如果你不是,你可能想和他们谈谈,如果你是,我建议你继续询问更多关于你安装

我运行的代码在集群上运行得非常好, 当我将核心数增加到3844时,我得到以下错误:

向0x0040:0x00152080发送消息的重试次数太多,放弃

这个错误是网络问题吗?或者这与代码有关

不幸的是,我不能在这里发布整个代码,因为它相当大


谢谢

您有足够的内核吗?我假设您正在使用qsub将作业发送到群集,您可以请求的核心/机器数量是否有限制是的,限制远大于我请求的数量,slurm拒绝提交超出允许限制的内容您是此群集的管理员吗?如果你不是,你可能想和他们谈谈,如果你是,我建议你继续询问更多关于你安装的信息。Stackoverflow是关于编程/代码的-这似乎不是编程问题。感谢您提供的信息,我不知道serverfault.com,