趋近智
首页
博客
课程
大模型
中
所有课程
大型模型MLOps (LLMOps)
章节 1: LLMOps 基本原理
从MLOps到LLMOps的转变
大语言模型在生产中的特有挑战
大型模型所需的基础设施
LLMOps 生命周期阶段
LLMOps 工具选用要点
章节 2: 大规模基础设施与数据管理
设计可扩展的计算基础设施
分布式系统的网络考量
管理PB级数据集
大语言模型数据预处理流程
大型数据和模型的版本控制
云端与本地基础设施的权衡
实践:配置可扩展存储
章节 3: 大模型训练与微调的运行管理
编排分布式训练任务
实现数据并行策略
实现模型并行策略
使用 DeepSpeed 和 Megatron-LM 等框架
参数高效微调(PEFT)的实施
大规模运行的实验跟踪
检查点与容错机制
实践操作:分布式训练配置
章节 4: LLM部署与服务优化
大型模型服务中的挑战
大型语言模型 (LLM) 的模型打包与容器化
GPU 推理服务器优化
应用模型量化方法
知识蒸馏在部署中的应用
高级部署模式 (金丝雀发布, A/B 测试)
自动扩缩容推理端点
无服务器 GPU 推理的考量
实践:部署量化模型
章节 5: 监控、可观测性与维护
界定大语言模型特有的性能指标
监控基础设施使用情况(GPU、内存)
追踪运营成本
检测大型语言模型中的数据与响应模式漂移
监控 LLM 输出质量(有害性、偏见)
幻觉检测方法
建立反馈循环以实现持续改进
LLMOps的日志记录与可观测性平台
动手实践:设置基本的LLM监控
章节 6: 进阶LLMOps系统与工作流
提示工程的运行化
检索增强生成(RAG)系统管理
向量数据库操作与管理
LLM再训练与微调流程自动化
LLMOps中的安全考量
LLM部署中的合规性与治理
将LLMOps与CI/CD系统集成
实践:构建提示词管理工作流程
设计可扩展的计算基础设施
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
LLM可扩展计算基础设施设计