量化大语言模型旨在提升推理效率,减少计算和内存需求。然而,这个过程会引入近似处理,可能会影响模型的预测表现。本章将着重介绍评估这些影响的必要步骤。你将学习如何量化量化大语言模型的性能特点。我们将介绍评估的通用指标,包括推理延迟、吞吐量以及内存占用减少(包括磁盘占用和运行时使用)。你还将研究评估模型准确性受到的影响的方法,例如使用困惑度以及在特定下游任务上的表现等指标。将会介绍跨不同硬件平台(CPU、GPU)进行基准测试的技术以及使用相关工具的方法,从而让你分析效率提升和潜在准确性损失之间的实际权衡。