趋近智
对大型语言模型(LLM)进行专业化处理的传统方法是完全微调(FFT),即使用任务特定数据更新所有模型参数。尽管此方法有效,但它带来了巨大的运行难题,尤其是在模型规模持续增长至数千亿甚至数万亿参数时。这些难题构成了研究参数高效微调(PEFT)技术的主要原因。
完全微调在多个方面带来了显著负担:
计算开销: 更新大型 LLM 中的每个参数需要大量的计算资源。训练时需要计算所有权重的梯度,这在反向传播过程中涉及大量的矩阵乘法。为数十亿参数存储和更新优化器状态(如 Adam 的动量)会进一步增加计算负荷。这直接导致高 GPU/TPU 使用率、漫长的训练时间和巨大的能耗。例如,微调像 GPT-3(1750 亿参数)这样的模型需要庞大的分布式训练基础设施。
内存需求: FFT 期间的内存占用通常是难以承受的。不仅是模型权重需要适应加速器内存(VRAM);前向传播期间计算的激活值(梯度计算所需)、梯度本身以及优化器状态也都需要。对于大型模型,即使采用混合精度训练(例如 FP16 或 BF16),这些需求也容易超出商用 GPU 的容量,从而需要复杂的模型并行策略,这会进一步增加工程的复杂性。训练期间内存消耗的简化视图可能如下所示:
内存≈模型参数+优化器状态+梯度+激活对于 AdamW 等优化器,仅优化器状态通常就需要模型参数两倍的内存(用于存储一阶和二阶动量)。
存储成本: 最直接的问题可能出现在为多个下游任务调整单个预训练 LLM 时。使用 FFT,每个任务特定模型都是原始 LLM 的完整副本,尽管权重略有修改。如果您需要为 10 个不同任务部署微调版本,则必须存储 10 个独立的数十亿参数模型实例。一个以 BF16 精度存储的 700 亿参数模型大约需要 140GB。管理 10 个这样的模型将需要 1.4TB 的存储空间,这是一个巨大的运行开销。
估计 10 个任务特定版本的 700 亿参数模型(BF16 精度下约 140GB)所需的存储空间,对比完全微调与 PEFT(假设 PEFT 模块约占总参数的 0.1%,每个约 100MB)。注意 Y 轴的对数刻度突出显示了巨大的差异。完全微调需要存储 10 个完整模型(1400 GB),而 PEFT 需要存储一个基础模型加上 10 个小型模块(140 GB + 10 * 0.1 GB ≈ 141 GB)。
参数高效微调方法通过从根本上改变适应方式,直接解决了这些局限。PEFT 技术通常不修改所有参数,而是包括:
这种定向方法带来了几个令人信服的优点:
适应策略的对比。完全微调为每个任务创建完整、独立的模型副本。PEFT 则维护一个基础模型,并添加小的任务特定模块,从而显著减少存储和潜在的计算需求。
PEFT 本质上提供了一种实用且高效的途径,用于为各种应用定制基础模型,同时避免了与完全微调相关的过高成本。接下来的部分将审视 Adapters、基于提示的方法、LoRA 和 QLoRA 等流行 PEFT 方法的具体机制,详细说明它们如何在保持下游任务高性能的同时实现这些效率。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造