趋近智
本课程旨在指导您在生产环境中实施并管理大型语言模型(LLM)的运行周期。内容涵盖适用于LLM规模及复杂性的各项先进方法,例如基础设施管理、模型部署、性能优化及监控等。您将学习构建稳定、可扩展且经济高效的LLMOps流程。
先修课程 需具备MLOps基本知识。
级别:
LLM基础设施设计
构建可扩展的基础设施,用于训练及提供大型语言模型服务,并考虑GPU/TPU资源及网络配置。
分布式训练管理
实施并管理针对数十亿参数模型的分布式训练任务,运用DeepSpeed或Megatron-LM等框架。
高效微调操作
在MLOps工作流程中应用参数高效微调(PEFT)方法。
LLM高级部署
部署大型模型,运用优化推理服务器、量化技术及专用服务模式。
LLM监控与可观测性
实施全面的监控策略,以评估LLM的性能、成本、漂移及输出质量。
成本优化
应用策略,管理及优化与大型模型训练和提供服务相关联的高昂成本。
RAG系统运行管理
管理检索增强生成系统(RAG)的运行方面,包括向量数据库管理。
© 2026 ApX Machine Learning用心打造