Google cloud platform 如何在GCP中找到rank0机器的地址和端口?

Google cloud platform 如何在GCP中找到rank0机器的地址和端口?,google-cloud-platform,google-compute-engine,pytorch,distributed-computing,Google Cloud Platform,Google Compute Engine,Pytorch,Distributed Computing,我正在尝试在GCP上使用单节点和多gpu配置进行分布式培训。我已经设置了实例的IP地址,在那里我有我的代码和数据。我得到了这个错误。我是不是遗漏了什么?有什么解决办法吗?这里有更多。我想找到rank0机器的ip地址 文件“/opt/conda/lib/python3.6/site packages/torch/distributed/distributed_c10d.py”,第400行,在init_进程组中 存储、排名、世界大小=下一个(集合点(url)) 文件“/opt/conda/lib/p

我正在尝试在GCP上使用单节点和多gpu配置进行分布式培训。我已经设置了实例的IP地址,在那里我有我的代码和数据。我得到了这个错误。我是不是遗漏了什么?有什么解决办法吗?这里有更多。我想找到rank0机器的ip地址

文件“/opt/conda/lib/python3.6/site packages/torch/distributed/distributed_c10d.py”,第400行,在init_进程组中 存储、排名、世界大小=下一个(集合点(url)) 文件“/opt/conda/lib/python3.6/site packages/torch/distributed/rendezvous.py”,第143行,位于环境集合处理程序中 store=TCPStore(主地址、主端口、世界大小、启动守护进程) 运行时错误:连接超时


你能提供更多关于你的设置的信息吗?您是否根据问题标签使用GKE集群?或者使用单个GCE虚拟机和多个GPU?单个GCE虚拟机和多个GPU,谢谢,我编辑了标签。请提供有关您的设置的更多信息-您的问题非常广泛;-您运行pytorch的机器与rank0相同吗?;-他们都是GCE中的虚拟机吗?-它们是否在同一VPC网络中?-您是否检查了虚拟机所在VPC的防火墙规则?对我来说,这似乎是一个连接问题,所以请提供尽可能多的细节,你可以。