从模型训练转向生产使用,需要部署大型语言模型并高效提供推理服务。本章侧重于这一转变的运行方面,特别关注大型语言模型(LLM)特有的规模和资源需求。您将研究以下技术:打包大型模型及其依赖项。使用专用服务器(如 Triton 或 vLLM)和硬件加速来优化推理速度和吞吐量。通过量化和知识蒸馏等方法减小模型大小和计算需求。实施适用于LLM的部署模式,例如金丝雀发布和A/B测试。通过自动扩缩容管理可变请求负载。评估无服务器GPU推理的方案。目标是提供实用方法,用于构建高性能、可扩展且成本敏感的LLM服务系统。