将 FinOps 原则应用于机器学习工作负载

传统的 FinOps 为财务管理提供了坚实基础，但其原则需要进行特别调整，以应对机器学习 (machine learning)工作负载的特殊之处。与具有可预测、基于负载扩展的标准网络服务不同，人工智能基础设施的成本由极大的变动性定义。一次大规模的训练任务可以暂时占用数百个高端 GPU，产生远超稳定运行开销的成本峰值。同样，一个效率低的推理 (inference)端点会随着时间推移悄悄累积大量成本。因此，将 FinOps 应用于机器学习，其目的不仅仅是管理稳定开销，更重要的是管理高影响、间歇性且实验驱动的资源使用。

这种调整的核心在于将财务分析的单位从服务器或服务转向机器学习任务或实验。这需要财务数据与 MLOps 元数据更紧密地结合。

机器学习 (machine learning) FinOps 的三大支柱

FinOps 的“知情、优化、运营”生命周期提供了一个有效的框架。以下是我们如何根据人工智能基础设施的需求调整每个阶段。

1. 知情：实现精细化可见性

第一步是清晰了解资金花费在哪里。对于机器学习平台，这表示要远超标准云提供商的仪表板。根本挑战在于，一个 Kubernetes 集群或共享的计算实例池可能被多个团队用于多个项目，运行不同类型的任务（例如训练、超参数 (parameter) (hyperparameter)调优、推理 (inference)）。

标准成本分配在这里往往失效。我们必须实施自动化标记 (token)策略，将每一美元的云开销关联到具体且有意义的业务场景。

机器学习工作负载的最低限度标记策略应包括：

team：负责的数据科学或工程团队。
project：正在开发的特定模型或产品。
job_type：一种类别，例如训练、推理、调优或数据处理。
experiment_id：来自您的实验跟踪工具的唯一标识符（例如 MLflow 运行 ID、Weights & Biases ID）。这使得您可以将 10,000 美元的 GPU 账单直接与产生新先进模型的实验关联起来。

这种细致程度将成本报告从简单的开销列表转变为用于分析的丰富数据集。您现在可以回答诸如：“训练我们的生产推荐模型的平均成本是多少？”或“我们在探索性研发实验上花费了多少，与生产模型的重新训练相比呢？”的问题。

下图展示了传统应用程序与典型机器学习平台的成本曲线差异，强调了机器学习开销的峰值化、事件驱动的特点，因此需要这种精细化方法。

机器学习平台的成本曲线呈现出较大、间歇性的峰值，对应训练任务，而传统应用程序则表现出更可预测、稳定的增长。

2. 优化：最大化每美元的价值

在建立了清晰的可见性之后，下一阶段是优化。在机器学习的场景下，优化不仅仅是降低成本，更是为了提高成本效益。其目的在于，花费的每一美元都能获得更强的模型能力、更快的运行结果和更高的任务成功率。这让我们回顾本章引言中的公式：

\text{有效成本} = \frac{\text{总开销}}{\text{任务成功率} \times \text{资源利用率}}

简单地通过使用更便宜或更少的 GPU 来减少总开销，可能会更大幅度地损害分母，从而导致更高的有效成本。一个在廉价、性能不足的实例上运行 10 小时后失败的任务，比在配置正确、更昂贵的实例上运行 2 小时就成功的任务要昂贵得多。

机器学习 FinOps 中的优化策略侧重于提高分母：

提高任务成功率：这包括构建有弹性的训练脚本，使其能够处理瞬时硬件故障（如第二章所述），有效地设置检查点，并避免常见的错误，例如内存溢出（OOM）情况。每一个失败的任务都是 100% 的财务浪费。
提高资源利用率：这是一个重要且经常被忽视的方面。一个仅有 30% 利用率的 GPU 每小时成本与 95% 利用率的 GPU 相同。这里的优化意味着确保您的数据管道能够足够快地为加速器提供数据，选择正确的批次大小，并使用能够最大化硬件占用率的工具。

这一阶段是前几章中做出的技术决策（例如选择正确的互联方式（第一章）、使用 PyTorch FSDP（第二章）或启用 NVIDIA MIG（第三章））能够产生直接且可衡量的财务影响之处。

3. 运营：自动化管理和持续改进

最后阶段——运营，旨在使 FinOps 成为一个持续的、自动化的和协作的过程。在这里，您可以将财务管理直接嵌入 (embedding)到您的 MLOps 工作流程中。目标是创建一个反馈循环，帮助工程师和数据科学家做出有成本意识的决策，同时不制造繁琐的障碍。

应用于机器学习工作负载的 FinOps 反馈循环。

运营实践包括：

自动化异常检测：设置警报，当特定实验的成本超出历史基线或每日项目预算被超出时触发。这有助于快速发现失控任务或配置错误。
CI/CD 中的预算管理：将成本估算集成到您的 CI/CD 管道中。例如，一个更改模型训练配置的拉取请求可能会触发一个工具，该工具估算一次完整训练运行的成本。如果估算值超过预设阈值，可能需要团队负责人的手动批准。
共同责任制：通过为团队提供清晰的、项目级别的成本和效率仪表板（来自知情阶段），可以培养主人翁意识。当数据科学家能够看到他们的代码更改与产生的有效成本之间的直接关联时，他们从而能够积极参与优化过程。

通过系统地应用这些调整后的原则，您可以从月末分析云账单的被动模式，转变为构建经济上可持续的人工智能系统的积极的、工程驱动的方法。

这部分内容有帮助吗？