趋近智

高级LLMOps：大型语言模型的部署

所有课程

大型模型MLOps (LLMOps)

章节 1: LLMOps 基本原理

从MLOps到LLMOps的转变

大语言模型在生产中的特有挑战

大型模型所需的基础设施

LLMOps 生命周期阶段

LLMOps 工具选用要点

章节 2: 大规模基础设施与数据管理

设计可扩展的计算基础设施

分布式系统的网络考量

管理PB级数据集

大语言模型数据预处理流程

大型数据和模型的版本控制

云端与本地基础设施的权衡

实践：配置可扩展存储

章节 3: 大模型训练与微调的运行管理

编排分布式训练任务

实现数据并行策略

实现模型并行策略

使用 DeepSpeed 和 Megatron-LM 等框架

参数高效微调（PEFT）的实施

大规模运行的实验跟踪

检查点与容错机制

实践操作：分布式训练配置

章节 4: LLM部署与服务优化

大型模型服务中的挑战

大型语言模型 (LLM) 的模型打包与容器化

GPU 推理服务器优化

应用模型量化方法

知识蒸馏在部署中的应用

高级部署模式 (金丝雀发布, A/B 测试)

自动扩缩容推理端点

无服务器 GPU 推理的考量

实践：部署量化模型

章节 5: 监控、可观测性与维护

界定大语言模型特有的性能指标

监控基础设施使用情况（GPU、内存）

追踪运营成本

检测大型语言模型中的数据与响应模式漂移

监控 LLM 输出质量（有害性、偏见）

幻觉检测方法

建立反馈循环以实现持续改进

LLMOps的日志记录与可观测性平台

动手实践：设置基本的LLM监控

章节 6: 进阶LLMOps系统与工作流

提示工程的运行化

检索增强生成（RAG）系统管理

向量数据库操作与管理

LLM再训练与微调流程自动化

LLMOps中的安全考量

LLM部署中的合规性与治理

将LLMOps与CI/CD系统集成

实践：构建提示词管理工作流程

大型模型MLOps (LLMOps)

本课程旨在指导您在生产环境中实施并管理大型语言模型（LLM）的运行周期。内容涵盖适用于LLM规模及复杂性的各项先进方法，例如基础设施管理、模型部署、性能优化及监控等。您将学习构建稳定、可扩展且经济高效的LLMOps流程。

先修课程 需具备MLOps基本知识。

级别:

高级

LLM基础设施设计
构建可扩展的基础设施，用于训练及提供大型语言模型服务，并考虑GPU/TPU资源及网络配置。
分布式训练管理
实施并管理针对数十亿参数模型的分布式训练任务，运用DeepSpeed或Megatron-LM等框架。
高效微调操作
在MLOps工作流程中应用参数高效微调（PEFT）方法。
LLM高级部署
部署大型模型，运用优化推理服务器、量化技术及专用服务模式。
LLM监控与可观测性
实施全面的监控策略，以评估LLM的性能、成本、漂移及输出质量。
成本优化
应用策略，管理及优化与大型模型训练和提供服务相关联的高昂成本。
RAG系统运行管理
管理检索增强生成系统（RAG）的运行方面，包括向量数据库管理。

本课程没有先修课程。

目前没有推荐的后续课程。

登录以撰写评论

分享您的反馈以帮助其他学习者。

© 2026 ApX Machine Learning