Pytorch 使用';gloo&x27;后端

Pytorch 使用';gloo&x27;后端,pytorch,distributed,gloo,Pytorch,Distributed,Gloo,我在pytorch教程中运行分布式培训代码,当我使用“gloo”后端时,代码在初始化进程组时引发RuntimeError “run.py:” #!/usr/bin/env python 导入操作系统 进口火炬 导入火炬。作为dist分发 从torch.MULTIPROSSING导入过程 def运行(等级、大小): “”“以后要实现的分布式函数。”“” 通过 def init_进程(秩、大小、fn、后端='gloo'): “”“初始化分布式环境。”“” 操作系统环境['MASTER_ADDR']=

我在pytorch教程中运行分布式培训代码,当我使用“gloo”后端时,代码在初始化进程组时引发RuntimeError

“run.py:”
#!/usr/bin/env python
导入操作系统
进口火炬
导入火炬。作为dist分发
从torch.MULTIPROSSING导入过程
def运行(等级、大小):
“”“以后要实现的分布式函数。”“”
通过
def init_进程(秩、大小、fn、后端='gloo'):
“”“初始化分布式环境。”“”
操作系统环境['MASTER_ADDR']='127.0.0.1'
操作系统环境['MASTER_PORT']='29500'
dist.init\u进程组(后端,秩=秩,世界大小=大小)
fn(级别、大小)
如果名称=“\uuuuu main\uuuuuuuu”:
尺寸=2
进程=[]
对于范围内的排名(大小):
p=进程(目标=初始进程,参数=(排名、大小、运行))
p、 开始()
进程。追加(p)
对于流程中的p:
p、 加入
获取错误时:

Process Process-2:
Traceback (most recent call last):
  File "/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py", line 297, in _bootstrap
    self.run()
  File "/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py", line 99, in run
    self._target(*self._args, **self._kwargs)
  File "<ipython-input-1-6cc8a94a6551>", line 16, in init_process
    dist.init_process_group(backend, rank=rank, world_size=size)
  File "/home/wuyiming/anaconda3/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 416, in init_process_group
    timeout=timeout)
  File "/home/wuyiming/anaconda3/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 484, in _new_process_group_helper
    timeout=timeout)
RuntimeError: [enforce fail at /pytorch/third_party/gloo/gloo/transport/tcp/device.cc:198] ifa != nullptr. Unable to find interface for: [0.0.0.27]
Process Process-1:
Traceback (most recent call last):
  File "/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py", line 297, in _bootstrap
    self.run()
  File "/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py", line 99, in run
    self._target(*self._args, **self._kwargs)
  File "<ipython-input-1-6cc8a94a6551>", line 16, in init_process
    dist.init_process_group(backend, rank=rank, world_size=size)
  File "/home/wuyiming/anaconda3/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 416, in init_process_group
    timeout=timeout)
  File "/home/wuyiming/anaconda3/lib/python3.7/site-packages/torch/distributed/distributed_c10d.py", line 484, in _new_process_group_helper
    timeout=timeout)
RuntimeError: [enforce fail at /pytorch/third_party/gloo/gloo/transport/tcp/device.cc:198] ifa != nullptr. Unable to find interface for: [0.0.0.27]
过程-2:
回溯(最近一次呼叫最后一次):
文件“/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py”,第297行,在bootstrap中
self.run()
文件“/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py”,第99行,正在运行
自我目标(*自我参数,**自我参数)
文件“”,第16行,在初始化进程中
dist.init\u进程组(后端,秩=秩,世界大小=大小)
文件“/home/wuyiming/anaconda3/lib/python3.7/site packages/torch/distributed/distributed_c10d.py”,第416行,在init_进程组中
超时=超时)
文件“/home/wuyiming/anaconda3/lib/python3.7/site packages/torch/distributed/distributed\u c10d.py”,第484行,在“新流程”组中
超时=超时)
RuntimeError:[enforce fail at/pytorch/third_party/gloo/gloo/transport/tcp/device.cc:198]ifa!=nullptr。找不到:[0.0.0.27]的接口
过程-1:
回溯(最近一次呼叫最后一次):
文件“/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py”,第297行,在bootstrap中
self.run()
文件“/home/wuyiming/anaconda3/lib/python3.7/multiprocessing/process.py”,第99行,正在运行
自我目标(*自我参数,**自我参数)
文件“”,第16行,在初始化进程中
dist.init\u进程组(后端,秩=秩,世界大小=大小)
文件“/home/wuyiming/anaconda3/lib/python3.7/site packages/torch/distributed/distributed_c10d.py”,第416行,在init_进程组中
超时=超时)
文件“/home/wuyiming/anaconda3/lib/python3.7/site packages/torch/distributed/distributed\u c10d.py”,第484行,在“新流程”组中
超时=超时)
RuntimeError:[enforce fail at/pytorch/third_party/gloo/gloo/transport/tcp/device.cc:198]ifa!=nullptr。找不到:[0.0.0.27]的接口

如果我将主干从“gloo”更改为“NCCL”,代码将正确运行。

我发现在另一台服务器上,代码运行没有问题。因此,我认为网络配置存在问题lo Link encap:本地环回inet地址:127.0.0.1掩码:255.0.0.0 inet 6地址:1/128范围:运行MTU的主机上环回:65536度量:1 RX数据包:471171错误:0丢弃:0溢出:0帧:0 TX数据包:471171错误:0丢弃:0溢出:0载波:0冲突:0 txqueuelen:1000接收字节:27339830(27.3 MB)发送字节:27339830(27.3 MB)``我发现在另一台服务器上,代码运行没有问题。因此,我认为网络配置存在问题lo Link encap:本地环回inet地址:127.0.0.1掩码:255.0.0.0 inet 6地址:1/128范围:运行MTU的主机上环回:65536度量:1 RX数据包:471171错误:0丢弃:0溢出:0帧:0 TX数据包:471171错误:0丢弃:0溢出:0载波:0冲突:0 txqueuelen:1000接收字节:27339830(27.3 MB)发送字节:27339830(27.3 MB)```