所有课程

大型模型MLOps (LLMOps)

章节 1: LLMOps 基本原理

从MLOps到LLMOps的转变

大语言模型在生产中的特有挑战

大型模型所需的基础设施

LLMOps 生命周期阶段

LLMOps 工具选用要点

章节 2: 大规模基础设施与数据管理

设计可扩展的计算基础设施

分布式系统的网络考量

管理PB级数据集

大语言模型数据预处理流程

大型数据和模型的版本控制

云端与本地基础设施的权衡

实践：配置可扩展存储

章节 3: 大模型训练与微调的运行管理

编排分布式训练任务

实现数据并行策略

实现模型并行策略

使用 DeepSpeed 和 Megatron-LM 等框架

参数高效微调（PEFT）的实施

大规模运行的实验跟踪

检查点与容错机制

实践操作：分布式训练配置

章节 4: LLM部署与服务优化

大型模型服务中的挑战

大型语言模型 (LLM) 的模型打包与容器化

GPU 推理服务器优化

应用模型量化方法

知识蒸馏在部署中的应用

高级部署模式 (金丝雀发布, A/B 测试)

自动扩缩容推理端点

无服务器 GPU 推理的考量

实践：部署量化模型

章节 5: 监控、可观测性与维护

界定大语言模型特有的性能指标

监控基础设施使用情况（GPU、内存）

追踪运营成本

检测大型语言模型中的数据与响应模式漂移

监控 LLM 输出质量（有害性、偏见）

幻觉检测方法

建立反馈循环以实现持续改进

LLMOps的日志记录与可观测性平台

动手实践：设置基本的LLM监控

章节 6: 进阶LLMOps系统与工作流

提示工程的运行化

检索增强生成（RAG）系统管理

向量数据库操作与管理

LLM再训练与微调流程自动化

LLMOps中的安全考量

LLM部署中的合规性与治理

将LLMOps与CI/CD系统集成

实践：构建提示词管理工作流程

大型模型服务中的挑战

这部分内容有帮助吗？

参考文献

vLLM: Efficient LLM Serving with PagedAttention, Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lichao Yu, Daniel Friedman, Xin Jin, Joseph E. Gonzalez, 2023 Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS 2023) (NeurIPS) DOI: 10.48550/arXiv.2309.06180 - 介绍了PagedAttention，这是一种对LLM服务中KV缓存管理至关重要的内存优化技术，并提出了vLLM，一个高效的服务系统。
A Survey of Large Language Model Acceleration, Lianmin Zheng, Ying Sheng, Hanwen Chang, Wei-Ming Chen, Xiangru Lian, Zhaoyang Zhang, Zhiqiang Xie, Puxin Xu, Yiyuan Dong, Renjie Liu, Xingyao Chen, Hao Zhang, Kaiwen Zhang, Zhuohan Li, Zixuan Wu, Siyuan Zhuang, Joseph Gonzalez, Yi Wu, Michael Mahoney, Archita Sharma, Fan Lai, Yinghui Li, Junjie Liu, Chris Van Durme, Guangxuan Song, Shangguang Wang, Wen-mei Hwu, Yonghong Yan, Zhi Yang, Zhenglian Wu, Yuandong Tian, Zhiruo Wang, Haotian Tang, Hantian Ding, Michael Jordan, Dawn Song, Michael I Jordan, 2024 arXiv preprint DOI: 10.48550/arXiv.2312.15166 - 全面回顾了加速大型语言模型的技术，涵盖了内存优化、计算效率和系统设计，与服务挑战相关。
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Shuming Ma, Saleh Ashkboos, Oleg Rybakov, Torsten Hoefler, 2023 Proceedings of the 40th International Conference on Machine Learning (ICML 2023) DOI: 10.48550/arXiv.2210.17323 - 提出了一种专为大型生成模型设计的训练后量化方法，显著降低了推理的内存占用和计算成本。
Large Language Model Inference: The Cost of Waiting, Quentin Lhoest, Lysandre Neis, 2023 (Hugging Face Blog) - 审视了LLM推理的挑战，侧重于延迟和吞吐量之间的权衡，并阐明了持续批处理和高效KV缓存管理等概念。

© 2025 ApX Machine Learning用心打造