趋近智
前几章已说明如何对大型语言模型(LLM)进行量化 (quantization),并使用标准工具包和框架进行部署。然而,要获得理想效果,通常需要处理在实际操作中出现的一些具体且不简单的问题。本章侧重讨论这些进阶难点。
您将学习解决精度下降问题的实用方法,尤其是在采用激进的低比特量化方案(例如低于)时。我们将讲解识别和管理权重 (weight)及激活值中问题离群值的方法,这些离群值会明显影响量化准确性。此外,本章将分析硬件性能和核函数可用性对性能的影响,比较静态与动态量化方法以满足不同部署需求,并介绍在量化过程中遇到问题时的系统调试方法。最后,我们将讨论如何将这些优化后的模型有效地应用到生产环境中。
5.1 缓解低比特量化中的精度损失
5.2 处理激活和权重的离群值
5.3 量化特定LLM组成部分(注意力机制、归一化)
5.4 硬件限制与内核支持
5.5 动态量化与静态量化的权衡
5.6 量化问题调试
5.7 将量化模型整合到生产管线中
5.8 实践:微调量化参数