趋近智
虽然全参数微调是实现模型专业化的直接途径,但其资源需求是一大阻碍。更新数十亿参数需要大量GPU内存和计算时间,这使得该过程在许多开发环境中不切实际。例如,完全微调一个70亿参数的模型,仅存储模型权重、梯度和优化器状态就需要超过80 GB的显存,这一要求超出了大多数市售GPU的容量。
参数高效微调(PEFT)提供了一系列方法来解决这个计算瓶颈。PEFT的核心思路是冻结大部分预训练模型的参数,并引入少量可管理的新可训练参数。这些新参数旨在有效引导模型行为以适应特定任务,同时不改变其权重中编码的原始知识。这种方法减少了微调过程中的内存和计算占用。
下方的图表说明了这两种微调理念的根本区别。在全微调中,基础模型的每个权重都是更新的候选对象。而在PEFT中,庞大的基础模型保持不变,只训练轻量级的补充组件。
训练方法的比较。全微调会修改所有模型权重,而PEFT则冻结基础模型,仅训练一小组适配器参数。
采用PEFT的理由不只在于管理资源限制。这类技术提供了多项重要优势,使得模型定制更为灵活和可扩展。
通过仅训练总参数的一小部分(通常小于模型大小的1%),PEFT显著降低了微调的门槛。存储梯度和优化器状态所需的内存(这是全微调中高显存占用的主要原因)按比例减少。这种效率使得在单个高端消费级或专业级GPU上微调超大型模型(例如700亿参数或更多)成为可能。因此,训练时间也大大缩短。
由于全微调会修改整个模型,保存一个微调版本意味着存储其所有权重的完整副本,这可能达到数十甚至数百千兆字节。使用PEFT,您只需保存一小组训练过的适配器权重。这些检查点通常只有几兆字节大小。这种便携性带来极大的操作便利。它使您能够维护基础模型的单个副本,并为不同任务应用不同的轻量级适配器,例如一个用于摘要,另一个用于代码生成,第三个用于客户支持对话。这种模块化方法简化了模型管理和部署流程。
当您在一个狭窄、针对特定任务的数据集上微调模型时,它存在“遗忘”其在大量预训练期间学到的通用知识的风险。这种现象被称为灾难性遗忘。由于PEFT方法保持原始模型权重冻结,它们本身就能防止这种退化。模型的核心推理和语言理解能力保持不变,而小型可训练模块则指导其输出与新任务匹配。这使得模型更加稳定和可靠,它在获得专业技能的同时,保留了通用能力。
PEFT并非单一技术,而是一系列方法的集合。在接下来的章节中,我们将介绍一些主要方法,主要关注低秩适应(LoRA)。我们还将简要介绍适配器微调(Adapter Tuning)和前缀微调(Prefix-Tuning)等其他策略,以便您对现有选择有一个更全面的了解。每种方法都以独特的方式引入可训练参数,但它们都有一个共同的目的,即以最小的计算代价实现高表现。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造