高性能CPU和GPU是AI基础设施的核心,但它们带来的物理限制常常被低估。这些组件不仅功能强大,而且耗电量也很大,几乎将消耗的每一瓦电能都转化为热量。未能妥善规划供电和散热是一个常见的失误,会导致热节流、系统不稳定,甚至硬件过早损坏。本地部署系统的可靠性,与其说建立在其芯片上,不如说更多地依赖于其电力和散热基础设施。计算功耗规划的第一步是估算服务器在重度机器学习工作负载下的总功耗。组件的散热设计功耗(TDP)是此计算的一个良好起点。虽然TDP技术上衡量的是组件冷却系统设计耗散的最大热量,但它可作为组件在持续负载下功耗的可靠估算。要计算服务器的总功耗需求,您必须将所有主要组件的TDP相加。GPU: 这些通常是功耗最高的组件。像NVIDIA A100这样的高端数据中心GPU的TDP可以达到400W。CPU: 现代服务器CPU也有显著的电力需求,通常每个处理器在150W到280W之间。主板、内存和存储: 这些组件单独贡献较少,但总和起来会增加。对于主板、内存、NVMe驱动器和系统风扇的组合,一个安全的估算值约为150-250W。让我们计算一个常见AI服务器配置的功耗预算:4块NVIDIA A100 GPU:$4 \times 400W = 1600W$2块AMD EPYC CPU:$2 \times 200W = 400W$主板、内存、存储等:$\approx 200W$组件的总估算功耗为:$$ 1600W + 400W + 200W = 2200W $$这2200W代表了组件所需的直流(DC)电源。然而,服务器的电源供应单元(PSU)从墙壁插座获取交流(AC)电,并将其转换为直流电,这个过程并非100%高效。高质量的服务器PSU具有“80 Plus”评级,白金或钛金评级表示效率达到90%或更高。如果我们的服务器的PSU效率为90%,则从墙壁插座实际消耗的功率将是:$$ \frac{2200W}{0.90} \approx 2444W $$这是您规划电路时必须使用的数值。对于生产系统,务必使用冗余电源。如果一个电源出现故障,另一个可以承担全部负载,从而避免在长时间训练运行期间意外关机。规划供电一个常见的错误是假设标准墙壁插座能够支持一台强大的AI服务器。在北美,典型的家用电路是120伏(V),并由一个15安培(A)的断路器保护。您可以安全持续抽取的最大功率是电路最大值的80%,即:$$ 120V \times 15A \times 0.80 = 1440W $$我们示例中的服务器功耗为2444W,将立即导致此断路器跳闸。即使是20A的电路($120V \times 20A \times 0.80 = 1920W$)也无法满足需求。这就是为什么数据中心和专用服务器机房使用更高电压的电路,通常是208V或240V。一个208V、20A的电路可以提供:$$ 208V \times 20A \times 0.80 = 3328W $$这为我们2444W的服务器提供了安全余量。在建立本地设施时,您必须与电工合作安装合适的大功率插座。对于服务器机架,您将使用电源分配单元(PDU),它本质上是一个设计用于安装在机架中,并从高安培墙壁电路向多个服务器分配电源的电源板。graph G { rankdir=TB; node [shape=box, style="rounded,filled", fontname="sans-serif"]; edge [fontname="sans-serif"]; subgraph cluster_rack { label = "服务器机架"; style="filled"; fillcolor="#e9ecef"; bgcolor="#f8f9fa"; PDU [label="PDU (电源分配单元)", fillcolor="#a5d8ff"]; subgraph cluster_server { label = "AI服务器"; style="filled"; fillcolor="#dee2e6"; PSU [label="冗余PSU\n(交流转直流转换)", fillcolor="#b2f2bb"]; Components [label="<f0> CPU | <f1> GPU | <f2> 其他", shape=record, fillcolor="#ffc9c9"]; } } Wall [label="大功率墙壁插座\n(例如:208V / 30A)", shape=Mdiamond, fillcolor="#ffec99"]; Cooling [label="专用空调机组", shape=cylinder, fillcolor="#bac8ff"]; Heat [label="热量散发", shape=ellipse, style=dashed, color="#495057"]; Wall -- PDU [label="3328W 可用"]; PDU -- PSU [label="2444W 消耗"]; PSU -- Components [label="2200W 输送"]; Components -- Heat [label="~8340 BTU/小时", style=dashed, color="#f03e3e"]; Cooling -- PDU [label="冷空气", style=dashed, color="#4263eb"]; } 电源从墙壁插座流向服务器组件,以及由此产生的必须由散热系统处理的热量。计算散热需求热力学定律是无情的:服务器消耗的几乎所有电能都转化为热量。必须将这些热量从服务器和房间中移走,以防止组件过热。衡量热量的标准单位是英制热量单位(BTU)。瓦特到BTU每小时的转换很简单:$$ 1W \approx 3.412 \text{ BTU/小时} $$使用从墙壁插座消耗的2444W,我们可以计算服务器的散热量:$$ 2444W \times 3.412 \text{ BTU/小时} \approx 8339 \text{ BTU/小时} $$从这个角度来看,一个小型个人取暖器大约产生5,000 BTU/小时的热量。我们的单台AI服务器产生的热量远超于此。标准的办公室暖通空调系统并未设计来处理这种集中式的热负荷。将这样的服务器放置在狭小、不通风的房间里,会迅速将环境温度提升到导致硬件性能受限或完全关闭的水平。散热策略有效散热需要两级方法:管理服务器内部的气流和管理房间本身的温度。服务器层面散热服务器机箱设计有特定的气流模式,通常是前向后。冷空气从前方吸入,流经组件,热废气从后方排出。务必不要阻塞这些通风口。大功率服务器使用高速、高压风扇(以每分钟立方英尺,或CFM衡量),其噪音远高于台式电脑。房间层面散热即使只是一台AI服务器,通常也需要一台专用的便携式空调或“分体式”系统。这些设备的制冷量以BTU/小时为单位。对于我们8339 BTU/小时的服务器,您需要一台制冷量至少为10,000 BTU/小时的空调,以提供安全余量。对于机架中的多台服务器,数据中心最佳实践变得适用。热通道/冷通道布局是一种简单而有效的策略。机架排列成行,所有服务器正面(进气口)面向一个通道(冷通道),所有服务器背面(热排气口)面向另一个通道(热通道)。这可以防止服务器吸入邻近服务器排出的热空气,显著提高散热效率。归根结底,电力和散热是您本地基础设施的根本。它们不仅是操作细节,更是核心设计要求,直接影响系统的性能、可靠性和总拥有成本。