趋近智
从模型训练转向生产使用,需要部署大型语言模型并高效提供推理 (inference)服务。本章侧重于这一转变的运行方面,特别关注大型语言模型(LLM)特有的规模和资源需求。
您将研究以下技术:
目标是提供实用方法,用于构建高性能、可扩展且成本敏感的LLM服务系统。
4.1 大型模型服务中的挑战
4.2 大型语言模型 (LLM) 的模型打包与容器化
4.3 GPU 推理服务器优化
4.4 应用模型量化方法
4.5 知识蒸馏在部署中的应用
4.6 高级部署模式 (金丝雀发布, A/B 测试)
4.7 自动扩缩容推理端点
4.8 无服务器 GPU 推理的考量
4.9 实践:部署量化模型