Networking 集群内GPU的常见拓扑是什么？_Networking_Gpu_Pci E

Networking 集群内GPU的常见拓扑是什么？

networking

Networking 集群内GPU的常见拓扑是什么？,networking,gpu,pci-e,Networking,Gpu,Pci E,我是高性能计算领域的新手，正在学习GPU卡的Allreduce操作。我发现称为ring Allreduce的高效集合操作要求GPU卡的物理拓扑为树拓扑。但是，我检查自己服务器的拓扑结构，如下所示 GPU卡似乎由几个本地PCIe总线和PCIe主机网桥连接。这是总线拓扑的层次结构吗？双插槽系统在每个插槽上有几个PCIe根端口。PCIe网桥连接到每个根端口，GPU连接到网桥标记为PIX的连接位于连接到同一网桥的GPU之间标记为节点的连接位于连接到两个不同网桥（在两个不同根端口上）的GPU之间标

我是高性能计算领域的新手，正在学习GPU卡的

Allreduce

操作。我发现称为

ring Allreduce

的高效集合操作要求GPU卡的物理拓扑为树拓扑。但是，我检查自己服务器的拓扑结构，如下所示

GPU卡似乎由几个本地PCIe总线和PCIe主机网桥连接。这是总线拓扑的层次结构吗？

双插槽系统在每个插槽上有几个PCIe根端口。PCIe网桥连接到每个根端口，GPU连接到网桥

标记为PIX的连接位于连接到同一网桥的GPU之间

标记为节点的连接位于连接到两个不同网桥（在两个不同根端口上）的GPU之间

标有SYS的连接连接到不同套接字上的根端口。

首先感谢您的解释。我想我知道GPU卡的物理布局。但我仍然对拓扑结构感到困惑。是总线拓扑吗？我不知道你说的是什么意思。PCIe链路是树状结构中的所有点对点链路，而不是共享总线。这就是为什么每个根端口上都需要网桥。这有助于回答您的问题吗？我不确定您是否熟悉分布式深度学习培训。在这种情况下，我们需要从每个gpu卡收集梯度信息，计算平均值，然后发送回。有一种著名的算法称为ring all reduce，它可以基于树拓扑实现最佳带宽。我只是不知道gpu卡的默认拓扑是否是树形拓扑。