趋近智
训练后量化 (quantization)(PTQ)提供了一种实用方法,可以在不带来重新训练或微调 (fine-tuning)大型语言模型相关的较大开销的情况下,获得降低精度计算的好处,例如更低的内存占用和更快的推理 (inference)速度。PTQ 的主要思路是将已用高精度格式(通常是32位浮点数 )训练好的模型,将其参数 (parameter)(权重 (weight))以及有时激活计算,转换为使用低精度整数数据类型,例如8位整数 甚至4位整数 。
训练后量化的主要原理围绕着将原始模型中观察到的浮点数值范围映射到目标整数格式中有限的可用范围。可以将其想象成将宽广的色彩范围压缩到一个更小的调色板中。为了有效地执行这种映射,我们需要为我们要量化的每组值(张量)提供两个重要参数:
原始浮点数值 () 与其量化整数表示 () 之间的关系由这些参数定义。量化过程本质上应用了仿射变换:
该等式将实数值 按 缩放,按 偏移,然后将结果取整到目标数据类型可表示的最近整数(例如, 通常范围从-128到127)。取整后通常会应用一个截断函数,以确保结果保持在有效的整数范围内。
反之,为了从其量化表示中近似原始浮点数值(一个称为反量化的过程),我们反转变换:
这个反量化值 是原始值 的近似。 和 之间的差异构成了量化误差。训练后量化的核心难点是为每个张量(或张量的部分,取决于粒度)确定最佳的比例因子 () 和零点 () 值,以最小化此误差并尽可能保持模型的预测准确性。
确定这些最佳的 和 参数 (parameter)需要了解预训练 (pre-training)模型中的值分布。这引出了典型的训练后量化流程:
以下是此过程的简化视图:
训练后量化的典型流程,从预训练模型和校准数据开始,生成带有相关参数的量化模型。
训练后量化的有效性取决于所选校准数据在多大程度上代表了推理期间看到的实际数据分布,以及量化参数如何准确地捕获原始浮点数范围中的重要信息。尽管训练后量化与量化感知训练(QAT)相比显著降低了计算开销,但量化过程本质上引入了近似误差。目标是管理此误差,以便效率提升远超模型性能的任何潜在下降。后续章节将讨论校准策略、不同的训练后量化方法(静态与动态)、用于参数计算的特定算法以及处理有问题的值分布的方法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•