灾难性遗忘 (CF) 是神经网络中一个常见现象,指模型在连续训练多个任务时,学习新任务后,突然丧失在之前任务上的表现。这发生的原因是,新任务所需的参数更新会覆盖用于记忆旧任务的参数。大型语言模型 (LLM) 在大量通用数据上预训练,在为特定下游任务进行微调时,遗忘这些基本知识是一个重要顾虑。完全微调会更新所有模型参数,尤其容易受到此问题的影响。了解不同的 PEFT 方法在缓解灾难性遗忘方面与完全微调相比表现如何,是评估这些方法时的一个主要考量因素。PEFT 有望缓解遗忘的原因参数高效微调方法在一定程度上是为了应对完全微调的计算负担而设计的,但其架构本身就可能对灾难性遗忘提供保护。主要原因有:冻结基础模型参数: 大多数 PEFT 技术 (LoRA、适配器、前缀/提示微调) 保持绝大部分原始预训练模型权重冻结。微调仅影响少量新增或修改的参数。由于核心知识存在于数百万或数十亿个冻结参数中,因此不太可能被专注于少量可调参数的更新所清除。任务特定参数隔离: 新引入的参数 (如 LoRA 矩阵 A 和 B,或适配器层) 是专门针对下游任务优化的。这将任务特定的适应与嵌入在基础模型权重中的通用知识隔离开来。在 LoRA 等方法中,更新 $\Delta W = BA$ 被添加到原始权重 $W_0$,从而将原始功能与适应区分开来。有限的更新能力: LoRA 等方法中更新的低维度 (由秩 $r$ 控制) 或适配器中的瓶颈维度,本身就限制了微调过程在整个模型行为上引发剧烈变化的能力。虽然足以适应新任务,但这种有限的能力可能不足以完全覆盖预训练期间学到的复杂、分布式表征。衡量灾难性遗忘为了定量评估 PEFT 方法保留先前知识的程度,我们需要系统的评估流程。常见方法包括:序列任务微调:步骤 1: 使用原始预训练模型,在一组评估任务 (任务集 A) 上建立基线表现。这些任务可能涵盖通用能力,例如常识推理、阅读理解或一般知识。步骤 2: 使用选定的 PEFT 方法 (例如 LoRA、QLoRA、适配器),在特定下游任务 (任务 B) 上对模型进行微调。步骤 3: 在任务 B 上微调后,重新评估模型在原始任务集 A 上的表现。分析: 在任务 B 上微调前后,任务集 A 上表现的差异表示灾难性遗忘的程度。比较不同 PEFT 方法之间以及与完全微调相比的这种差异。通用基准上的表现:使用 PEFT 在目标任务 (任务 B) 上微调模型。不仅在任务 B 上评估微调后的模型,还在一系列广泛的标准 NLP 基准 (例如 GLUE、SuperGLUE、MMLU) 上进行评估,这些基准代表通用语言理解能力。将此表现概况与原始基础模型和完全微调模型的表现进行比较。这些通用基准上的显著下降表明存在遗忘。指标: 使用与评估任务 (任务集 A 或通用基准) 相关的标准表现指标,例如准确率、F1 分数、困惑度、BLEU/ROUGE 分数等。衡量遗忘的主要指标是在新任务上微调后这些任务的表现下降。经验观察和影响因素将 PEFT 方法与完全微调进行比较的研究持续表明,PEFT 显著减少了灾难性遗忘。虽然完全微调在某些情况下可能在目标任务 (任务 B) 上达到略高的表现,但这通常以其他任务表现大幅下降为代价。PEFT 方法通常能取得更好的平衡,在任务 B 上达到良好表现,同时保留模型大部分通用能力。{"layout": {"title": "微调后基础任务上的表现下降", "xaxis": {"title": "微调方法"}, "yaxis": {"title": "表现下降 (%)", "range": [0, 50], "dtick": 10}, "autosize": true, "bargap": 0.2, "width": 600, "height": 400}, "data": [{"type": "bar", "x": ["完全微调", "LoRA (r=16)", "Adapter Tuning (dim=64)", "QLoRA (r=16)"], "y": [42, 9, 13, 11], "marker": {"color": ["#fa5252", "#4263eb", "#20c997", "#7048e8"]}, "name": "表现下降"}]}图示:在专业任务 (例如法律文档分析) 上微调后,通用知识基准 (例如 MMLU 平均准确率) 上的表现下降。PEFT 方法表现出比完全微调明显更少的遗忘。然而,PEFT 缓解遗忘的程度并非绝对,并可能受到几个因素的影响:PEFT 方法: 不同的 PEFT 方法可能表现出不同程度的遗忘。例如,适配器的具体放置和设计可能会有影响。可调参数数量/能力: 增加 LoRA 中的秩 $r$ 或适配器中的瓶颈维度会增加适应能力,但如果能力变得足够大以干扰基础模型表征,也可能略微增加遗忘的风险。任务相似性: 在与预训练数据非常不同的任务上进行微调,可能会比在密切相关的任务上微调导致更明显的遗忘。训练数据大小和持续时间: 即使使用 PEFT,在大型数据集上进行大量轮次的广泛微调,也可能导致通用知识的一些下降。局限性和考虑事项需要认识到,PEFT 减少了灾难性遗忘,但并非完全消除。无关任务上的一些表现下降仍可能发生。此外,通常存在一个权衡:完全阻止任何遗忘可能会限制模型完全适应并在新目标任务上达到最佳表现的能力。目标通常是显著缓解而非绝对阻止。研究持续寻求在 PEFT 框架内进一步增强知识保留的方法,有时会从为标准训练范式开发的持续学习技术中汲取灵感。总之,评估灾难性遗忘的程度是评估任何微调策略的一个重要部分。PEFT 方法在保留大型预训练模型中编码的有价值知识方面,通常比完全微调具有显著优势,使其成为随着时间推移在多个任务或领域中调整 LLM 的更可靠选择。在选择和配置 PEFT 方法时,考虑其对模型现有能力的潜在影响对于可靠部署很必要。