成功训练大型语言模型后,通常会得到具有数十亿参数的模型。虽然功能强大,但这些模型在实际部署时面临显著难题,因为它们占用大量内存(需要大量 $VRAM$),并且推理时的计算成本高昂,这会带来延迟和运行开支。本章将介绍模型压缩技术,以应对这些难题。这些方法旨在减小大型语言模型(LLM)的体积并降低其计算需求,使其更易于部署,尤其是在资源有限的环境或需要低延迟的应用中。您将了解到几种主要策略:量化: 使用低精度数值格式(如 $INT8$ 或 $FP4$)而非标准32位浮点数($FP32$)来表示模型权重以及可能的激活值的方法。我们将介绍训练后量化(PTQ)和量化感知训练(QAT)。剪枝: 移除神经网络中冗余参数或连接的方法,从而有效稀疏化模型。这包括非结构化剪枝(单个权重)和结构化剪枝(神经元、注意力头)。知识蒸馏: 一种训练较小“学生”模型模仿较大、预训练“教师”模型的输出行为或内部表示的过程。我们将考察每种方法背后的机制,讨论实现时的考量,并分析其固有的权衡,即达到的压缩程度与对模型性能指标的潜在影响之间的平衡。