大型语言模型 (LLMs) 通常需要大量计算资源和内存。模型量化提供一套技术,通过使用低精度数据类型表示其参数(例如权重和激活值),使这些模型更小、更快。这种缩减对于高效部署大型语言模型必不可少,尤其是在资源有限的设备上。本章旨在为理解模型量化提供必要铺垫。我们首先将量化置于模型压缩的整体背景中。您将了解量化大型语言模型的主要原因,重点关注其带来的好处,例如减少内存占用和加快推理速度。我们将介绍数字是如何在计算机中表示的,比较标准浮点格式(如 $FP32$)与量化中使用的定点和低精度整数格式(如 $INT8$ 或 $INT4$)。核心内容将涉及量化方案(对称与非对称)和粒度(逐张量、逐通道、逐组)等,并对此进行阐述。最后,我们将介绍衡量量化引入误差的方法,并提供主要做法的总体概述:训练后量化 (PTQ) 和量化感知训练 (QAT),为后续章节做好准备。