趋近智
在应用量化 (quantization)技术并评估其影响后,下一步是让这些模型投入实际使用。本章讨论有效部署量化大语言模型 (LLM) 的实际方面。
您将了解与量化技术相辅相成的优化方法,例如专用内核的使用和高效的注意力机制 (attention mechanism)。我们将指导您选择和使用为量化模型定制的合适部署框架,包括 Text Generation Inference (TGI)、vLLM、NVIDIA TensorRT-LLM 和 ONNX Runtime。本章还涉及硬件特定调优,尤其是针对 GPU,以及在生产环境中对这些优化模型进行容器化、扩展和监控的重要策略。结束时,您将能够选择正确的工具并为您的量化 LLM 建立有效的部署流程。
4.1 量化后的推理优化技术
4.2 选择合适的部署框架
4.3 使用文本生成推理 (TGI) 进行部署
4.4 借助 vLLM 实现高吞吐量推理
4.5 使用 NVIDIA TensorRT-LLM 进行 GPU 优化
4.6 使用ONNX Runtime进行部署
4.7 容器化与扩展策略
4.8 监控已部署的量化模型
4.9 动手实操:通过推理服务器部署