趋近智
大型语言模型 (LLMs) 通常需要大量计算资源和内存。模型量化 (quantization)提供一套技术,通过使用低精度数据类型表示其参数 (parameter)(例如权重 (weight)和激活值),使这些模型更小、更快。这种缩减对于高效部署大型语言模型必不可少,尤其是在资源有限的设备上。
本章旨在为理解模型量化提供必要铺垫。我们首先将量化置于模型压缩的整体背景中。您将了解量化大型语言模型的主要原因,重点关注其带来的好处,例如减少内存占用和加快推理 (inference)速度。
我们将介绍数字是如何在计算机中表示的,比较标准浮点格式(如 )与量化中使用的定点和低精度整数格式(如 或 )。核心内容将涉及量化方案(对称与非对称)和粒度(逐张量、逐通道、逐组)等,并对此进行阐述。最后,我们将介绍衡量量化引入误差的方法,并提供主要做法的总体概述:训练后量化 (PTQ) 和量化感知训练 (QAT),为后续章节做好准备。
1.1 模型压缩简介
1.2 为何对大型语言模型进行量化?
1.3 数值表示:浮点数与定点数
1.4 量化中的整数数据类型
1.5 量化方案:对称量化与非对称量化
1.6 量化粒度选择
1.7 量化误差的度量
1.8 量化方法的概述