趋近智
选择AI工作负载的物理硬件流程,始于确定其性能和容量目标。这不仅仅是从货架上挑选功能最强的组件。这关乎构建一个平衡且整合的系统,其中服务器机箱、主板和CPU需协调运作,以支持您昂贵且高功耗的GPU,确保它们永远不会等待数据或指令。
服务器机箱是容纳所有组件的物理外壳。对于专用AI服务器而言,它的作用远不止一个简单的外壳。它是您系统散热和结构设计的重要组成部分。
主板是连接所有组件的中心枢纽。对于AI服务器而言,最主要的功能是其为每个GPU提供最大数据带宽的能力。这几乎完全由其**外围组件互连标准高速(PCIe)**架构决定。
现代GPU需要PCIe x16插槽才能以其全部带宽运行。主板上可用的PCIe通道数量决定了您可以运行多少个GPU而不产生数据瓶颈。这些通道来源于两个方面:CPU和主板芯片组。为获得最高性能,您会希望GPU直接连接到CPU提供的PCIe通道。
考虑一下典型的消费级平台与服务器级或高端桌面(HEDT)平台之间的差异。
消费级CPU的PCIe通道有限,迫使第二个GPU通过芯片组共享带宽。而服务器级CPU则提供了足够的直接通道,可供四个GPU同时以完整的x16带宽运行。
选择主板时,请注意以下规格:
x16/x8/x8/x4的配置运行。为获得最佳性能,您需要一块能够为您打算使用的每个GPU插槽提供x16通道的主板。虽然GPU备受关注,但CPU仍然是运作的大脑。它负责处理操作系统、数据加载和预处理,并协调发送给GPU的任务。对于多GPU训练服务器而言,CPU最主要的功能不是其原始时钟速度,而是其PCIe通道数量。
如上图所示,消费级CPU(如英特尔酷睿或AMD锐龙)通常提供约20-24条PCIe通道。这足以满足一个GPU以全速x16运行,以及一个高速NVMe SSD以x4运行。然而,如果您添加第二个GPU,系统将被迫拆分通道,通常会使两个GPU都以较慢的x8配置运行,从而有效减半它们潜在的主板带宽。
这就是为什么HEDT和服务器级CPU,例如AMD的线程撕裂者/EPYC或英特尔的至强系列,是多GPU构建的标配。这些处理器可以直接从CPU提供64、128甚至更多的PCIe通道。这使您能够运行四个、八个或更多GPU,每个都使用专用x16插槽并提供完整带宽。
次要考虑因素是核心数量。一个拥有更高核心数量的CPU(例如16、32或64个核心)可以运行更多并行数据预处理线程。这对于构建能够不间断地为GPU提供数据的有效数据管道非常重要。如果您的数据加载和增强代码无法跟上GPU的处理速度,您昂贵的加速器将会闲置,浪费时间和电力。目标是选择一个拥有足够核心和PCIe通道的CPU,以有效地服务所有GPU。一个性能过弱的CPU会造成瓶颈,而CPU性能对于GPU数量而言过于强大则代表着资本支出的浪费。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造