趋近智
您的计算集群的速度取决于其最慢的组件。尽管GPU提供强大的计算能力,但在分布式任务中,它们完全依赖网络来接收数据并与其他节点协调。缩短总训练时间中的通信部分是基础设施设计中的重要一环。
配置不足的网络会有效地拖累您昂贵的GPU,使它们在等待数据时闲置。在本节中,我们将研究为系统提供动力所需的网络组件和架构,以确保您的项尽可能小。
规划本地网络时,带宽和延迟这两个指标最为重要。
带宽 是网络的数(据)吞吐能力,通常以每秒千兆位 (Gbps) 为单位测量。高带宽对于移动大量数据的操作非常必要,例如从存储服务器加载海量数据集、为大型模型创建检查点,或者在某些并行策略中在节点间传输模型权重 (weight)。标准的1 Gbps办公网络完全不足;现代AI集群通常从25 Gbps起步,并经常使用100 Gbps或更快的连接。
延迟 是数据包从源到目的地所需的时间延迟,以毫秒 (ms) 或微秒 (µs) 为单位测量。低延迟对于同步分布式训练非常重要,在这种训练中,多个工作器必须频繁交换少量信息包(如梯度),并等待彼此完成才能进行下一步。在这种情况下,高延迟会造成严重的瓶颈,因为所有节点都被迫等待最慢的通信链路完成。
尽管以太网是最常见的网络技术,但高性能计算 (HPC) 和AI集群通常使用专用技术,例如 InfiniBand,它从设计之初就旨在提供最高带宽和尽可能低的延迟。
在使用TCP/IP的标准网络堆栈中,将数据从服务器A上的应用程序发送到服务器B上的应用程序涉及多个步骤。数据会从应用程序的内存空间复制到操作系统的内核空间,由TCP/IP堆栈处理,然后发送到网卡。在接收端,这个过程是反向的。这些复制和内核级别的干预会大大增加延迟并消耗宝贵的CPU周期。
远程直接内存访问 (RDMA) 是一种彻底改变此过程的技术。它允许一台服务器的网卡 (NIC) 直接访问另一台服务器的主内存,无需涉及任何一台服务器的操作系统或CPU。这绕过了TCP/IP堆栈并消除了内存复制,从而大幅减少延迟并释放CPU以专注于计算。
对于需要频繁、快速通信的分布式训练工作负载,RDMA不只是一个“锦上添花”的功能;它是实现高性能的基本要求。RDMA是InfiniBand的固有功能,也可以通过名为RoCE(融合以太网上的RDMA)的协议在以太网上使用。
RDMA路径绕过内核级数据复制和上下文 (context)切换,与标准TCP/IP通信路径相比,从而降低延迟并减少CPU开销。
物理连接服务器和交换机的方式,即网络拓扑,直接影响性能和可扩展性。
对于只有两到四台服务器的小型设置,简单的星型拓扑通常就足够了。在这种设计中,所有服务器直接连接到一个高性能交换机。这易于实施和管理,但随着集群的增长,中心交换机可能成为性能瓶颈,并代表一个单点故障。
对于更大、多机架的集群,叶脊拓扑是行业标准。这种设计由两层交换机组成:
这种架构在集群中任意两台服务器之间提供了多条通信路径。它确保任意两个节点之间的流量只需经过一个叶交换机和一个脊交换机,从而实现可预测的低延迟。随着您增加更多脊交换机,叶脊网络的总带宽会线性扩展,这使其成为构建大型高性能AI工厂的理想选择。
简单的星型拓扑将所有节点连接到一个交换机,而可扩展的叶脊拓扑则使用两层交换机,以在更大的集群中所有节点之间提供高且可预测的带宽。
为本地AI服务器制定规格时,网络与CPU和GPU同等重要。您的规划应包含:
通过仔细规划您的网络,您可以确保通信开销不会成为系统性能的限制因素,从而使您的计算硬件能够充分发挥其性能。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•