Python 在Pytorch示例中，如何为多个GPU利用DistributedDataParallel的世界大小参数？_Python_Amazon Ec2_Gpu_Pytorch

Python 在Pytorch示例中，如何为多个GPU利用DistributedDataParallel的世界大小参数？

python amazon-ec2 pytorch

Python 在Pytorch示例中，如何为多个GPU利用DistributedDataParallel的世界大小参数？,python,amazon-ec2,gpu,pytorch,Python,Amazon Ec2,Gpu,Pytorch,我在g2.2xlargeAWS机器上运行。因此，当我运行time python imageNet.py ImageNet2时，它在以下时间运行良好： real 3m16.253s user 1m50.376s sys 1m0.872s 但是，当我添加world size参数时，它会被卡住，不会执行任何操作。命令如下：time python imageNet.py——世界大小2 ImageNet2 那么，如何利用脚本中的world size参数的DistributedDataPara

我在

g2.2xlarge

AWS机器上运行。因此，当我运行

time python imageNet.py ImageNet2

时，它在以下时间运行良好：

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是，当我添加

world size

参数时，它会被卡住，不会执行任何操作。命令如下：

time python imageNet.py——世界大小2 ImageNet2

那么，如何利用脚本中的

world size

参数的

DistributedDataParallel

功能呢。世界大小参数只不过是分布式进程的数量

我是否需要为这个目的提出另一个类似的例子？如果是，那么脚本如何识别实例？是否需要添加一些参数，如实例的IP或其他什么？

World size参数是分布式培训中的节点数，因此如果将World size设置为2，则需要在另一个节点上以不同的级别运行相同的命令。如果只想增加单个节点上的GPU数量，则需要更改每个节点的ngpus。请看本文中的多节点示例