Python 在Pytorch示例中,如何为多个GPU利用DistributedDataParallel的世界大小参数?

Python 在Pytorch示例中,如何为多个GPU利用DistributedDataParallel的世界大小参数?,python,amazon-ec2,gpu,pytorch,Python,Amazon Ec2,Gpu,Pytorch,我在g2.2xlargeAWS机器上运行。因此,当我运行time python imageNet.py ImageNet2时,它在以下时间运行良好: real 3m16.253s user 1m50.376s sys 1m0.872s 但是,当我添加world size参数时,它会被卡住,不会执行任何操作。命令如下:time python imageNet.py——世界大小2 ImageNet2 那么,如何利用脚本中的world size参数的DistributedDataPara

我在
g2.2xlarge
AWS机器上运行。因此,当我运行
time python imageNet.py ImageNet2
时,它在以下时间运行良好:

real    3m16.253s
user    1m50.376s
sys 1m0.872s
但是,当我添加
world size
参数时,它会被卡住,不会执行任何操作。命令如下:
time python imageNet.py——世界大小2 ImageNet2

那么,如何利用脚本中的
world size
参数的
DistributedDataParallel
功能呢。世界大小参数只不过是分布式进程的数量


我是否需要为这个目的提出另一个类似的例子?如果是,那么脚本如何识别实例?是否需要添加一些参数,如实例的IP或其他什么?

World size参数是分布式培训中的节点数,因此如果将World size设置为2,则需要在另一个节点上以不同的级别运行相同的命令。如果只想增加单个节点上的GPU数量,则需要更改每个节点的ngpus。请看本文中的多节点示例