运行标准模型的机器学习系统已是成熟做法。然而,大型语言模型 (LLM) 通常包含数十亿或数万亿个参数 (例如,参数量 $P \gg 10^9$ 的模型),带来了不同的运行要求,这些要求对传统 MLOps 提出了更高要求。它们庞大的规模、训练和推理的计算需求以及特有的故障模式,使得需要采用专门的方法。本章阐述了 LLMOps 的基本原理。我们将审视已有的 MLOps 原理如何调整适用,以及它们在应用于 LLM 时存在的不足之处。您将了解到:LLMOps 与传统 MLOps 的主要区别。LLM 带来的具体运行难题,包括规模、成本和性能管理。支持 LLM 生命周期所需的硬件和软件架构。开发、部署和维护 LLM 所涉及的各个阶段的概览。选择合适的工具和平台用于 LLMOps 技术栈时需考虑的事项。在本章结束时,您将理解大型模型在运行管理方面的特殊情况和要求,这将为您学习后续章节中介绍的具体方法做好准备。