评估本地部署方案时,只看硬件采购价格是一个常见但代价高昂的错误。总拥有成本(TCO)提供了一个更全面的财务视图,它涵盖了硬件整个使用寿命内产生的所有费用。了解TCO对于在自建基础设施和使用云服务之间进行合理的财务比较必不可少。
如前所述,TCO可以分为两大类:前期投入和持续运营成本。
TCO=资本支出 (CapEx)+运营支出 (OpEx)
我们来逐一分析构成此公式的各项费用。
资本支出 (CapEx)
资本支出是购置和设置物理基础设施所需的一次性前期费用。这通常是预算中最显眼的部分,但务必全面考虑所有必需的组成部分。
- 计算硬件: 这是最大的一项,包括服务器、CPU,尤其是为AI工作负载提供动力的GPU或其他加速器。
- 网络设备: 此处包括高速交换机(例如100GbE InfiniBand)、路由器、网卡(NIC)以及所有必需的光纤或铜缆。对于分布式训练而言,这是一个重要的性能和成本因素。
- 存储系统: 这包括用于数据缓存的高性能本地存储(如NVMe SSD),以及更大规模的集中式存储方案,如网络附加存储(NAS)或存储区域网络(SAN)。
- 数据中心基础设施: 您还必须考虑服务器的物理安置。这包括服务器机架、电源分配单元(PDU),以及如果您使用托管设施的任何初始设置费用。
- 初始软件许可: 这涵盖了操作系统、虚拟化软件(例如VMware vSphere)或基础设施管理工具的任何一次性永久许可。
运营支出 (OpEx)
运营支出是日常运行和维护基础设施的经常性费用。在硬件的整个使用寿命中,这些费用很容易超过最初的资本投入。
- 电力与冷却: GPU耗电量大。一台配有多块高端GPU的服务器在满载时可消耗数千瓦电力。这种直接的功耗,加上HVAC系统散热所需的额外电力,构成了您每月账单的主要部分。
- 数据中心空间: 如果您使用托管设施,这是一笔简单的月费或年费。如果您拥有数据中心,此费用包括建筑物维护、物理安全和房产税,按您的AI硬件所占用的空间进行分摊。
- 人员成本: 您的基础设施不会自动管理。您必须考虑进行硬件设置、网络配置、系统管理和故障排除所需工程师的成本。即使只分配多名工程师薪水的一小部分给这些任务,累积起来也相当可观。
- 维护与支持合同: 硬件会发生故障。来自NVIDIA或戴尔等供应商的延长保修和支持合同可确保您获得及时的更换和专家支持,但它们会产生经常性费用。
- 软件订阅: 与永久许可不同,许多现代软件工具采用订阅模式。这包括监控平台、调度器或MLOps软件的经常性费用。
下图展示了这些不同费用如何构成总拥有成本(TCO)。
总拥有成本的组成部分,分为初始资本支出和持续运营支出。
TCO计算示例
为了更具体地说明,我们来为一个小型本地部署集群计算三年期的总拥有成本。假设硬件的有效使用寿命也是三年。
情景:
- 硬件: 1台服务器,配有四块高端GPU。
- 总资本支出: 30,000美元(用于服务器、GPU以及部分网络/机架费用)。
- 资产寿命: 3年。
我们可以通过将资本支出分摊到使用寿命中来计算年化硬件成本:
年化硬件成本=3年$30,000=$10,000每年
现在,我们来估算年度运营支出:
- 电力与冷却: 服务器消耗约2千瓦。以0.12美元/千瓦时的电价计算,24/7运行每年大约花费2,100美元。我们将增加40%用于冷却,约为2,940美元。我们四舍五入为3,000美元。
- 人员: 仅分配一名系统工程师10%的时间(含福利成本每年150,000美元)即为15,000美元。
- 维护与空间: 支持合同和托管费用的保守估算约为2,000美元。
年度总成本: 10,000美元(硬件)+ 3,000美元(电力)+ 15,000美元(人员)+ 2,000美元(维护/空间)= 30,000美元
3年总拥有成本: 30,000美元每年 * 3年 = 90,000美元
请注意,最初的30,000美元硬件成本仅占其整个使用寿命总成本的三分之一。下图展示了这些成本的年度分布情况。
单台本地部署AI服务器在其3年使用寿命内的年度成本构成。人员和电力等运营支出占持续成本的大部分。
这项TCO分析是进行有效财务规划的根本。通过计算每年的总成本(30,000美元)甚至每小时的成本(约3.42美元,假设24/7运行),您可以建立一个清晰的基准。这个基准数字将在接下来的部分中用于与云服务提供商的定价模型进行直接且充分了解的比较。如果没有它,您是在将本地部署的全部投入与一张单独的云账单进行比较,这不是一个准确的比较。