趋近智
在明确了高效部署大型语言模型的主要挑战之后,本章重点关注量化 (quantization),这是一种减小模型大小和加速推理 (inference)的主要方法。尽管基本的量化带来了好处,但要在不牺牲模型准确性的前提下取得显著成效,则需要更精细的方法。
本章将超越入门知识,介绍专门应用于大型语言模型的进阶量化方法。您将学习如何:
我们将考察这些技术的实际应用,包括异常值处理、准确性保持以及量化与硬件加速器之间的配合。本章最后安排了一个实施PTQ和QAT的动手练习。
2.1 量化基本原理回顾
2.2 训练后量化 (PTQ)
2.3 量化感知训练 (QAT)
2.4 极致量化
2.5 混合精度量化策略
2.6 量化操作的硬件加速
2.7 评估量化大型语言模型的保真度与性能
2.8 实践操作:PTQ 和 QAT 的实现
© 2026 ApX Machine Learning用心打造