前几章已说明如何对大型语言模型(LLM)进行量化,并使用标准工具包和框架进行部署。然而,要获得理想效果,通常需要处理在实际操作中出现的一些具体且不简单的问题。本章侧重讨论这些进阶难点。您将学习解决精度下降问题的实用方法,尤其是在采用激进的低比特量化方案(例如低于$INT4$)时。我们将讲解识别和管理权重及激活值中问题离群值的方法,这些离群值会明显影响量化准确性。此外,本章将分析硬件性能和核函数可用性对性能的影响,比较静态与动态量化方法以满足不同部署需求,并介绍在量化过程中遇到问题时的系统调试方法。最后,我们将讨论如何将这些优化后的模型有效地应用到生产环境中。