趋近智
对当前大型语言模型 (LLM) 的每一个参数进行微调——这类模型通常包含数百亿甚至数千亿参数——带来了显著的实际障碍。完整微调需要大量的计算资源、庞大的内存占用和可观的训练时间,这通常将其应用范围限制在拥有大规模 GPU 集群的组织。参数高效微调 (PEFT) 方法通过仅修改模型参数的一小部分,直接应对了这些局限,提供了一种更节省资源的模型适配方式。
理解与完整微调相关的成本有助于阐明 PEFT 的动因。
内存需求: 训练期间所需的内存远不止存储模型权重 (W)。主要占用者包括:
当 P 代表数十亿参数时,权重、优化器状态、梯度和激活值所需的总内存可以轻易超出单个 GPU 甚至多 GPU 服务器的容量,因此需要分布式训练设置。
计算负担 (FLOPs): 前向传播计算对于完整微调和推理是相似的。然而,反向传播中梯度计算涉及的操作与可训练参数的数量成比例。更新所有 P 个参数需要在整个网络中计算梯度,这是一个计算密集型过程。
存储开销: 也许实际部署中最具限制性的方面是存储。如果需要适配一个基础 LLM(例如,700 亿参数,半精度下约需 140GB)到多个不同任务或应用场景(例如,客户支持、法律文档分析、医疗转录),完整微调会导致每个任务都有模型的 独立、完整副本。存储数十或数百个这样的大模型很快就会变得难以管理且成本高昂。
完整微调期间的近似相对内存使用量,与模型权重本身大小的比较。优化器状态通常占主导地位,其次是梯度和激活值。
PEFT 方法通过仅更新总参数的一小部分(通常小于 1%),大幅缓解了这些成本,带来了多项直接好处:
将基础 LLM 适配到两个不同任务时,使用完整微调和 PEFT 的存储需求比较。PEFT 只需存储一次基础模型,外加小的、针对特定任务的适配器权重。
实质上,参数高效性使得大型、强大的语言模型的适配变得实用且可扩展。它降低了为特定需求定制这些模型的门槛,无需大量计算基础设施,从而促进了广泛应用和专业化实践。接下来的章节将详细说明不同的 PEFT 技术 如何 实现这种高效性。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造