Openpai 是否只有CUDA库(不含OpenMPI)的多GPU并行处理代码具有自动多节点分布式处理功能?

Openpai 是否只有CUDA库(不含OpenMPI)的多GPU并行处理代码具有自动多节点分布式处理功能?,openpai,Openpai,我正在构建和测试OpenPAI v0.14.0。 以前,我在一台单节点4-gpu机器上构建了OpenPAI,并将其用于4-gpu分布式并行处理 这一次,一台新的单节点2-gpu机器进入并连接了两个节点。 OpenPAI仪表板显示有6个gpu可用。 然而,当我尝试将一个作业分配给6-gpu时,我得到了退出代码:-7200,退出原因:maxGPU=4 我认为maxGPU=4,是一个节点上最大数量的GPU。 OpenPAI是否只支持一个节点上的GPU分发 我在openpai.readthedocs.i

我正在构建和测试OpenPAI v0.14.0。 以前,我在一台单节点4-gpu机器上构建了OpenPAI,并将其用于4-gpu分布式并行处理

这一次,一台新的单节点2-gpu机器进入并连接了两个节点。 OpenPAI仪表板显示有6个gpu可用。 然而,当我尝试将一个作业分配给6-gpu时,我得到了退出代码:-7200,退出原因:maxGPU=4

我认为maxGPU=4,是一个节点上最大数量的GPU。 OpenPAI是否只支持一个节点上的GPU分发

我在openpai.readthedocs.io网站上找到了分布式作业示例。

这里的两个示例之一TensorFlow CIFAR10似乎将不同的作业分配给不同的节点,即参数服务器和工作节点。 对于另一个例子,Horovod PyTorch,似乎不仅编写了GPU分布式代码,而且已经使用OpenMPI在代码中分发节点

只有在分布式编程使用OpenMPI在代码级别直接使用多节点时,我才能在OpenPAI中使用多节点分布式GPU并行化吗

OpenPAI是否只使用CUDA库就可以自动处理多节点分布式多GPU并行编程


谢谢。

请分享您的工作配置,您是使用多个任务角色还是在一个任务角色中只使用一个任务?分布式逻辑不是由OpenPAI处理的,而是由您使用的深度学习框架处理的,例如parameter server、all reduce等。OpenPAI仅在容器中调度和运行您的作业。谢谢回复!这是我想知道的正确答案:)请分享你的工作配置,你是使用多个任务角色还是在一个任务角色中只使用一个任务?分布式逻辑不是由OpenPAI处理的,而是由您使用的深度学习框架处理的,例如parameter server、all reduce等。OpenPAI仅在容器中调度和运行您的作业。谢谢回复!这就是我想知道的正确答案:)