趋近智
灾难性遗忘 (CF) 是神经网络中一个常见现象,指模型在连续训练多个任务时,学习新任务后,突然丧失在之前任务上的表现。这发生的原因是,新任务所需的参数更新会覆盖用于记忆旧任务的参数。大型语言模型 (LLM) 在大量通用数据上预训练,在为特定下游任务进行微调时,遗忘这些基本知识是一个重要顾虑。完全微调会更新所有模型参数,尤其容易受到此问题的影响。了解不同的 PEFT 方法在缓解灾难性遗忘方面与完全微调相比表现如何,是评估这些方法时的一个主要考量因素。
参数高效微调方法在一定程度上是为了应对完全微调的计算负担而设计的,但其架构本身就可能对灾难性遗忘提供保护。主要原因有:
为了定量评估 PEFT 方法保留先前知识的程度,我们需要系统的评估流程。常见方法包括:
序列任务微调:
通用基准上的表现:
指标: 使用与评估任务 (任务集 A 或通用基准) 相关的标准表现指标,例如准确率、F1 分数、困惑度、BLEU/ROUGE 分数等。衡量遗忘的主要指标是在新任务上微调后这些任务的表现下降。
将 PEFT 方法与完全微调进行比较的研究持续表明,PEFT 显著减少了灾难性遗忘。虽然完全微调在某些情况下可能在目标任务 (任务 B) 上达到略高的表现,但这通常以其他任务表现大幅下降为代价。PEFT 方法通常能取得更好的平衡,在任务 B 上达到良好表现,同时保留模型大部分通用能力。
图示:在专业任务 (例如法律文档分析) 上微调后,通用知识基准 (例如 MMLU 平均准确率) 上的表现下降。PEFT 方法表现出比完全微调明显更少的遗忘。
然而,PEFT 缓解遗忘的程度并非绝对,并可能受到几个因素的影响:
需要认识到,PEFT 减少了灾难性遗忘,但并非完全消除。无关任务上的一些表现下降仍可能发生。此外,通常存在一个权衡:完全阻止任何遗忘可能会限制模型完全适应并在新目标任务上达到最佳表现的能力。目标通常是显著缓解而非绝对阻止。
研究持续寻求在 PEFT 框架内进一步增强知识保留的方法,有时会从为标准训练范式开发的持续学习技术中汲取灵感。
总之,评估灾难性遗忘的程度是评估任何微调策略的一个重要部分。PEFT 方法在保留大型预训练模型中编码的有价值知识方面,通常比完全微调具有显著优势,使其成为随着时间推移在多个任务或领域中调整 LLM 的更可靠选择。在选择和配置 PEFT 方法时,考虑其对模型现有能力的潜在影响对于可靠部署很必要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造