趋近智
在大型语言模型训练、对齐 (alignment)和优化后,接下来的工程任务是有效部署它,以便应用程序能使用其能力。部署拥有数十亿参数 (parameter)的模型会带来与硬件使用率、延迟、吞吐量 (throughput)和运行稳定性相关的特定难题。仅仅拥有一个训练好的模型文件是不够的;需要专门的基础设施和一套方法来高效处理实际使用情况。
本章将讨论在生产环境中部署大型语言模型的实际事宜。您将学习如何:
我们将考察构建可靠且可扩展的服务系统所需的软件和基础设施组件,这些系统能够应对大型语言模型的需求。
29.1 LLM 交互的 API 设计
29.2 模型服务框架 (Triton, TorchServe)
29.3 处理并发请求
29.4 跨模型实例的负载均衡
29.5 监控服务性能和成本