在应用量化技术并评估其影响后,下一步是让这些模型投入实际使用。本章讨论有效部署量化大语言模型 (LLM) 的实际方面。您将了解与量化技术相辅相成的优化方法,例如专用内核的使用和高效的注意力机制。我们将指导您选择和使用为量化模型定制的合适部署框架,包括 Text Generation Inference (TGI)、vLLM、NVIDIA TensorRT-LLM 和 ONNX Runtime。本章还涉及硬件特定调优,尤其是针对 GPU,以及在生产环境中对这些优化模型进行容器化、扩展和监控的重要策略。结束时,您将能够选择正确的工具并为您的量化 LLM 建立有效的部署流程。