趋近智
极致量化代表着实现模型最大程度压缩和推理加速的前沿。这涉及使用少于4位表示模型参数,主要是权重,有时也包括激活值。这种激进的缩减显著降低了内存占用和数据传输成本,有望使LLM部署于资源受限的设备上,并在专用硬件支持下实现显著加速。然而,这种追求伴随相当大的精度下降风险,需要复杂技术和审慎评估。
研究子4位表示的主要驱动因素有:
然而,仅用少量离散值来表示LLM学习到的复杂分布,本身就具有挑战性。信息不可避免地会丢失,恢复模型性能需要仔细考量量化方案,并且通常涉及量化感知训练(QAT)。
近期研究专注于开发比标准低位整数保留更多信息的专用数据类型。
NF4随QLoRA技术一同推出,它是一种信息论意义上的最优数据类型,适用于遵循零均值正态分布的数据,这是预训练神经网络权重中观察到的一个常见特征。与标准整数均匀间隔的量化级别不同,NF4根据标准正态分布(N(0,1))的分位数定义其离散值。
核心思想是,如果权重呈正态分布,根据分位数设置量化级别可确保每个级别代表基础概率质量的相等比例。这种不对称、非均匀的映射旨在最小化正态分布数据的量化误差。
NF4使用4位,表示24=16种可能的值。这些值是精心选择的分位数,并按被量化张量的绝对最大值(absmax)进行缩放,类似于其他分块量化方案。训练通常涉及在前向传播期间将NF4权重视为量化表示,同时可能使用更高精度进行梯度更新(正如QLoRA使用FP32备份副本所展示的)。
FP4使用4位浮点格式表示数字。与NF4侧重于正态分布不同,FP4提供了一种通用的低位浮点表示。存在不同的配置,主要是权衡指数位(范围)和尾数位(精度):
FP4的优势在于它与为低精度浮点运算设计的未来硬件扩展具有潜在兼容性。对于相同位宽,它比INT4提供更好的动态范围,这对于具有大异常值的激活或权重可能有所帮助,尽管其精度有限。与NF4类似,它通常依赖于分块缩放(例如,absmax),并且通常需要QAT以获得可接受的性能。
标准整数格式如INT3(8级)和INT2(4级)也可以研究。这些格式提供更简单、均匀的量化步骤,但当激进地应用于LLM时,通常比NF4或FP4等专用格式遭受更显著的精度损失。它们的实现方式直接,将值映射到N位(有符号对称)的[−2N−1,2N−1−1]或(无符号)的[0,2N−1],通常带有缩放因子。取得良好结果通常需要复杂的校准或QAT,可能将量化重心放在不太敏感的层或使用混合精度方法。
将量化推向其绝对极限会产生二值和三值表示。
BNN将权重(w)有时也将激活值(a)限制为仅两个值,通常是{-1, +1}或{0, 1}。
乘法操作变为简单的XNOR操作(对于{-1, +1})接着是位计数(popcount),这在硬件上可以非常快。
挑战: 主要的障碍是训练。符号函数在几乎所有地方的梯度都为零,使得标准反向传播变得不可能。**直通估计器(STE)**是常用方法:在反向传播期间,梯度会通过符号函数,如同其是恒等函数一样(∂x∂sign(x)≈1,通常裁剪到[−1,1])。尽管实用,STE引入了梯度不匹配。使用BNN技术在LLM等复杂模型中保持精度非常困难,并且仍是一个活跃的研究方向,通常需要架构修改或专用训练方案。
TWN使用三个值表示权重:{-W, 0, +W}或{-1, 0, 1}。这允许通过将接近零的权重表示为恰好为零来实现显式稀疏性,这可能优于二值表示。
权重(w)通常使用阈值(Δ)进行三值化:
缩放因子W和阈值Δ通常是从层或块内的权重分布中学习或推导的。类似于BNN,训练依赖于STE或相关技术来处理不可微分的量化函数。尽管TWN比BNN提供更强的表达能力,但与4位或8位方法相比,它们在大型LLM上仍面临显著的精度挑战。
实现极致量化需要仔细关注:
以下图表说明了模型准确率与每权重位数之间的普遍权衡。转向极低位宽通常会导致准确率急剧下降,需要更复杂的技术(如QAT或专用格式)来缓解损失。
量化位宽与潜在模型准确率的关系。较低的位宽能大幅降低模型大小,但会增加精度损失的风险。高级技术旨在将曲线向上和向左推动。
极致量化技术代表了模型压缩研究的前沿。虽然NF4和FP4等方法展现出前景,尤其是在与QLoRA等QAT框架集成时,但在大型LLM中使用二值或三值表示实现性能仍是一个重大挑战。内存、速度和能耗方面的潜在益处是可观的,这推动了对新颖低位数据格式、训练算法和硬件协同设计的持续研究,以使极致量化模型的能力得以实现。对于实践者而言,这些技术需要深厚的专业知识和审慎的、针对具体任务的评估,以了解其真实效果。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造