大大降低所有服务器之间相同槽位GPU卡的通讯时延,所有通讯只需要在单台TOR交换机上完成,省去3跳交换机的延迟;
省去了流量做ECMP多链路负载分担的冲突,带宽利用率达到最大化;
故障范围也大大缩小,如果坏掉一台TOR交换机,那么影响只是一路Rail轨道;
符合NCCL(Nvidia Collective multi-GPU Communication Library的简称)的ring或者tree算法设计,如下图所示,默认NCCL会自动做网络的拓扑发现并且建立可以连接所有GPU的环状Rail拓扑,有利于做常见的AllReduce计算;