Deep learning 有没有办法使MPI实现灵活?

Deep learning 有没有办法使MPI实现灵活?,deep-learning,mpi,Deep Learning,Mpi,如今的MPI标准是不容错的。如果需要放大或缩小,则需要重新启动整个工作负载 是否有一种无需重新启动即可处理缩放的方法?。这是wrt深度学习培训场景。现在大多数DL框架都使用MPI。恐怕您混淆了几个概念 是一种软件开发方法 使系统能够在发生故障时继续运行。MPI还不是容错的,但有一个解决方案 容错不能用于放大或缩小模拟 您可能指的是弹性(如中所示),这是必须构建到应用程序中的东西。通常,您的应用程序应该是可检查的,并且可以在不同数量的节点/任务上重新启动。这可能是可以“动态”实现的,但它还有其

如今的MPI标准是不容错的。如果需要放大或缩小,则需要重新启动整个工作负载


是否有一种无需重新启动即可处理缩放的方法?。这是wrt深度学习培训场景。现在大多数DL框架都使用MPI。

恐怕您混淆了几个概念

  • 是一种软件开发方法
  • 使系统能够在发生故障时继续运行。MPI还不是容错的,但有一个解决方案
  • 容错不能用于放大或缩小模拟

您可能指的是弹性(如中所示),这是必须构建到应用程序中的东西。通常,您的应用程序应该是可检查的,并且可以在不同数量的节点/任务上重新启动。这可能是可以“动态”实现的,但它还有其他含义(如何通知应用程序有更多或更少的节点可用?

如今,有几个正在进行的项目涉及MPI可塑性(动态更改进程的数量)

在这篇文章中,您将发现最新的技术状态(据我所知),以及在应用程序中实现延展性的解决方案,因为到目前为止,它还不能自动完成

希望能有帮助