趋近智
训练后量化 (quantization) (PTQ) 是直接对已训练好的模型进行量化。这种做法避免了计算成本高昂的再训练,因此成为减小模型大小和提升推理 (inference)速度的有效选择。PTQ 的工作方式是将模型的权重 (weight)(有时也包括激活值)从像 这样的高精度格式转换为 或 等低精度整数类型。
本章将介绍 PTQ 的实际应用方面:
2.1 训练后量化原理
2.2 校准:选择有代表性的数据
2.3 静态量化与动态量化
2.4 常见的 PTQ 算法
2.5 处理 PTQ 中的异常值
2.6 将PTQ应用于LLM层
2.7 基础PTQ的局限性
2.8 动手实践:应用静态PTQ