趋近智
训练后量化 (quantization) (PTQ) 方法,例如 GPTQ 和 AWQ,无需对模型进行完整重新训练即可运行。它们依赖于一小部分精心挑选的数据,称为校准数据集,用于确定模型权重 (weight)(有时也用于激活值)的最佳量化参数 (parameter)(例如缩放因子 和零点 )。可以将此数据集视为一种探针,用于了解在推理 (inference)过程中流经模型的值的典型范围和分布。此校准数据的质量和代表性直接影响量化过程的成效以及量化模型的最终精度。
在 PTQ 过程中,校准数据集会输入到预训练 (pre-training)模型(或其部分)中。随着数据传播,量化 (quantization)算法会观察权重 (weight)的统计数据,对于某些方法而言,更重要的是中间激活值。例如,简单的最小/最大量化直接使用校准集中观察到的最小和最大激活值来定义裁剪范围,然后映射到低位表示。
更精细的算法,例如 GPTQ 和 AWQ,以更复杂的方式使用校准数据。它们通常解决逐层重构问题,试图找到量化权重 (),使从校准集获取的输入 的原始层 () 输出与量化层 () 输出之间的差异最小化。
这里, 代表通过前置层运行校准数据收集到的输入激活值。这种优化可以确保量化参数 (parameter)的选择不仅仅基于静态权重范围,而是基于权重如何与典型的激活模式作用。
主要目的是选择一个能准确反映模型在实际部署中将遇到的数据分布的校准数据集。如果校准数据在统计上与推理 (inference)数据不同,计算出的量化 (quantization)参数 (parameter) () 将不理想,可能导致精度明显下降。
这些数据应从何处获取?有几个可选方案:
多少数据量才足够?校准时间和统计图景的完整性之间存在权衡。输入数千个样本可能提供略微更稳定的统计数据,但会大幅增加 PTQ 过程本身所需的时间(PTQ 涉及前向传播和优化)。
研究和实验结果,特别是对于 GPTQ 等方法,表明相对较小的数据集通常就足够了。常用的大小范围从 128 到 1024 个样本。重点在于多样性而非纯粹的数量。一个更小、更具多样性且能捕获各种激活模式的集合通常优于一个庞大、单一的集合。
确保所选样本涵盖各种预期输入。对于大型语言模型 (LLM) 而言:
仅使用非常相似的输入(例如,仅使用“你好”和“你好吗?”来校准聊天机器人 LLM)将导致量化参数不适用于更复杂或多样的对话,很可能造成明显的性能下降。
选定后,原始校准数据需要进行预处理,以匹配大型语言模型 (LLM) 所需的精确输入格式。
流程图,展示了训练后量化 (quantization)过程中校准数据如何处理以生成量化参数 (parameter)。
选择和准备合适的校准数据集是成功进行 PTQ 的重要步骤。虽然 PTQ 避免了重新训练的成本,但它将精力转移到仔细的数据选择和准备上,以确保生成的量化模型在获得显著效率提升的同时,尽可能多地保留精度。这里讨论的技术为应用 GPTQ 和 AWQ 等方法时做出明智选择提供了依据,你将在后续章节中实现这些方法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•