趋近智
在决定调整预训练模型后,您必须选择一种微调策略。这一决定直接影响您所需的计算资源、模型训练所需时间以及最终产物的特性。两种主要方法位于资源消耗和参数修改数量所界定的范围两端。
全参数微调,通常简称为“微调”,是最直接的方法。在此方法中,您加载一个预训练模型,并在自定义数据集上继续训练过程,更新模型中的每个权重和偏差。可以将其看作是调整整个神经网络的所有连接,使其更好地适应您的特定任务。
这种策略很有效,因为它给予模型最大的灵活性来适应新数据。如果您的任务数据分布与预训练数据显著不同,允许所有参数变化可以带来更高的性能。然而,这伴随着高昂的代价:
bfloat16 权重约14 GB)。当您拥有充足的计算资源且目标是在单一、明确的任务上获得尽可能高的性能时,全参数微调是最适合的。
参数高效微调(PEFT)方法为全参数微调的资源密集型需求提供了一种实用替代方案。PEFT的核心理念是冻结预训练模型的大部分参数,并只训练极少量新增或现有参数。这显著减少了训练过程的内存和计算占用。
您不是修改整个模型,而是在原始架构中注入小型、可训练的模块或“适配器”。只有这些适配器(可能只占总参数量的0.1%以下)在训练期间进行更新。基础模型的原始权重保持不变。
这种方法具有多项优势:
下图说明了这两种策略之间的根本区别。
微调方法的对比。全参数微调修改所有权重,形成一个新的大型模型。PEFT仅修改小型新增模块,并保持基础模型冻结。
全参数微调和PEFT之间的选择涉及一系列权衡。下表概括了主要差异,以协助您做出决定。
| 特性 | 全参数微调 | 参数高效微调 (PEFT) |
|---|---|---|
| 更新参数 | 全部 (100%) | 小部分 (< 1%) |
| GPU内存需求 | 非常高 | 低 |
| 存储成本 | 高(模型完整副本) | 低(仅小型适配器权重) |
| 训练速度 | 较慢 | 较快 |
| 灾难性遗忘 | 风险较高 | 风险较低 |
| 任务便携性 | 每个任务一个模型 | 一个基础模型,多个轻量级适配器 |
PEFT不是单一技术,而是一系列方法。其中最常用的是低秩适应(LoRA),它涉及将可训练的低秩矩阵注入到Transformer层中。其他方法包括添加新瓶颈层的适配器微调(Adapter Tuning),以及向输入序列添加可训练前缀的前缀微调(Prefix-Tuning)。我们将在第四章详细实现LoRA。
最终,您对微调策略的选择将取决于您项目的限制和目标。如果您硬件有限且需要支持多项任务,PEFT是一个很好的选择。如果您需要单一应用的最高性能并拥有充足的计算能力,全参数微调可能是更好的途径。本课程的后续章节将为您提供实践技能来实现这两种方法。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造