趋近智
大型语言模型在许多自然语言任务中表现优异,但其高效性也伴随着一定的代价。像ChatGPT或Llama这样的模型可能包含数十亿,甚至数百亿的参数 (parameter)。在推理 (inference)(即从训练好的模型生成输出的过程)过程中存储这些参数并进行计算,需要大量的计算资源。量化 (quantization)正是为了应对这些资源需求。
量化 (quantization)最直接的好处也许是模型尺寸的大幅缩小。LLM的参数 (parameter),主要是其神经网络 (neural network)层中的权重 (weight),通常使用32位浮点数()或有时16位浮点数(或)存储。
量化将这些高精度表示替换为低精度数据类型,最常见的是8位整数(),甚至4位整数()。来看看直接的影响:
一个包含70亿参数的大型模型,若以存储,仅权重部分就大约需要 GB的存储空间。将此模型量化为可将存储需求降至约7 GB,而则大致降至3.5 GB。这种减少使得以下情况成为可能:
量化也能减少激活值所需的内存。激活值是推理 (inference)过程中计算出的层级中间输出。在静态后训练量化或量化感知训练(我们稍后会讲到)等技术中,激活值也可以用低精度整数来表示。这降低了运行时内存使用(RAM或VRAM),而这通常是一个重要的瓶颈。
降低数字精度不仅节省空间,还能加快计算速度。现代硬件,包括CPU和GPU,通常具有专门的指令,与浮点运算相比,这些指令在使用低精度整数(特别是INT8)时,能更快地执行算术运算(如对LLM很重要的矩阵乘法)。
此外,推理速度不仅仅是原始计算能力的问题;它也受到内存带宽的很大影响,即数据在处理器和内存之间传输的速率。LLM会处理大量数据(权重 (weight)和激活值)。通过量化 (quantization)减少这些数据的大小,可以实现:
算术运算的加速与内存带宽瓶颈的减少相结合,带来了更低的推理延迟(更快的响应时间)和更高的吞吐量 (throughput)(每秒更多的推理次数)。
位精度、模型大小和推理速度之间的关系。更低的精度能大幅降低模型大小并提高速度,但激进的量化(如INT4)可能会影响模型准确性。
更快的推理 (inference)和更少的数据移动也带来了更低的功耗。从内存中获取数据和执行复杂的浮点计算都是耗能的操作。使用低精度整数简化了计算并最大限度地减少了数据传输,使得量化 (quantization)模型更节能。这对于以下情况尤为重要:
更小的尺寸、更快的速度和更低的能耗这些综合优势,使得LLM可以在以前不切实际的环境中部署。这包括:
总而言之,量化 (quantization)不仅仅是一种优化技术;它通常是使LLM实用且易于使用的必需手段。通过大幅减少内存需求、提高推理 (inference)速度和降低能耗,量化使得这些强大的模型能够在更广泛的硬件和应用中部署。接下来的部分将详细说明通过各种量化方法如何实现这些减少。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•