优化模型的持续学习

“优化后的大语言模型 (LLM)，通过量化 (quantization)、剪枝、蒸馏或PEFT等技术完善，代表着计算资源和工程方面的大量投入。但部署这些模型通常不是故事的结局。应用要求模型适应不断变化的数据分布，学习新技能，或获取新的信息。这一要求引出了持续学习（CL）的挑战，也称作终身学习：使模型能够从新的数据流中按顺序学习，而不会灾难性地遗忘之前获得的知识。当应用于已经过复杂优化过程的模型时，持续学习带来了独特且困难的问题。”

持续学习的主要目标是在稳定性（保留旧知识）和可塑性（获取新知识）之间达到平衡。在新数据上进行标准微调 (fine-tuning)通常会导致灾难性遗忘，即模型在先前任务上的性能严重下降。这个问题在优化模型中可能尤为明显。

优化模型带来的挑战加剧

将持续学习直接应用于优化后的大语言模型 (LLM)，通常比应用于未优化的模型更复杂。用于提升效率的技术本身可能会妨碍模型的适应能力：

优化表示的脆弱性：
- 剪枝： 去除权重 (weight)，尤其是通过结构化剪枝，会永久性地移除参数 (parameter)。如果这些参数对于保留先前知识很重要，或者对于有效学习新任务必不可少，则模型的容量会受到固有限制。微调 (fine-tuning)剪枝模型可能需要复杂的策略来保持稀疏性或选择性地重新增长连接，这会增加大量额外开销。
- 量化 (quantization)： 低精度表示（例如，INT4，NF4）的动态范围较小。这可能使模型难以充分调整其权重以适应新的数据分布，同时又不显著破坏为旧任务学习到的表示。基于旧数据校准的量化参数（缩放因子、零点）可能对新数据变得次优，可能需要重新校准或专门的微调技术。
- 蒸馏： 学生模型继承的知识偏向于蒸馏过程中使用的特定数据和目标。将其适应新任务可能导致它与蒸馏获得的知识显著偏离，从而可能失去从原始教师模型在旧任务上获得的泛化能力。
保持效率提升： 一种朴素的持续学习方法可能会损害通过优化获得的效率优势。例如：
- 重新训练或微调剪枝模型可能导致被剪枝的权重变为非零，从而需要再次剪枝的阶段。
- 调整量化模型可能需要反量化，在高精度下进行微调，然后再次量化（类似于QAT），这增加了更新步骤的计算成本。
- 持续为新任务添加PEFT模块（如LoRA适配器）会增加参数数量，并且如果适配器需要动态交换或组合，可能会增加推理 (inference)复杂性。
更新流程的复杂性： 更新过程本身变得更加复杂。标准持续学习算法可能需要修改，以考虑优化技术施加的特定限制（例如，保持稀疏性，在量化约束内操作，管理适配器交互）。

优化大语言模型 (LLM)的持续学习策略

存在多种持续学习策略系列，每种都可能适用于优化模型：

基于回放的方法：
- 理念： 存储少量代表性的过往任务样本（经验回放）缓冲区，并在训练期间将其与新任务数据交错使用。这直接提醒模型之前的知识。
- 优化模型考量： 回放可能有效，但需要仔细管理缓冲区。对于量化 (quantization)模型，回放数据有助于保持量化参数 (parameter)的校准。对于剪枝模型，回放有助于防止重要的未剪枝权重 (weight)漂移过远。回放缓冲区的存储成本是一个因素，尽管像生成式回放（使用生成模型创建伪样本）等技术可以减轻这个问题。
基于正则化 (regularization)的方法：
- 理念： 在新任务训练期间向损失函数 (loss function)添加惩罚项。这些项抑制对先前任务重要的参数发生显著变化。例子包括弹性权重整合（EWC），它使用费雪信息矩阵来估计参数重要性，以及突触智能（SI），它根据训练期间的梯度贡献来近似重要性。
- 优化模型考量： 计算参数重要性需要适应性调整。对于剪枝模型，重要性计算应仅关注剩余的活跃参数。对于量化模型，量化对梯度计算和费雪信息估计的影响需要仔细考量。如果量化显著削弱梯度幅度，EWC的效果可能会降低。正则化需要在优化格式的约束下运行（例如，正则化量化权重值的变化）。
参数隔离方法：
- 理念： 为不同任务分配不同的参数集，防止直接干扰。这与PEFT技术自然契合。
- 优化模型考量： 使用PEFT（如LoRA、适配器、Prompt Tuning）是一个非常有前景的方向。为每个新任务训练一个独立的PEFT模块，同时保持基础优化大语言模型冻结。这从本质上防止了基础模型的灾难性遗忘，并很大程度上保留了其优化后的结构。
  - 挑战： 积累许多PEFT模块会增加存储空间和复杂性。推理 (inference)可能需要动态加载或组合相关模块。关于高效组合或合并PEFT模块的研究正在进行中。
使用PEFT模块进行持续学习的参数隔离。大型优化基础模型保持冻结，而轻量级任务特定适配器则按顺序训练。
混合方法：
- 理念： 结合多种策略。例如，将PEFT用于参数隔离，并辅以少量回放缓冲区或轻度正则化，以进一步稳定性能。
- 优化模型考量： 蒸馏也可以发挥作用。在为任务 $T_{i+1}$ 进行训练时，在任务 $T_i$ 上训练的模型可以作为教师模型（与回放数据一起），帮助在适应的同时保留知识。这需要在优化约束内仔细管理学生-教师设置。

评估与实际考量

评估优化模型的持续学习系统，不仅需要评估在新任务上的准确性，还需要评估：

逆向迁移： 在新任务上训练后，在先前学习的任务上的表现（衡量遗忘程度）。
正向迁移： 学习任务 $T_i$ 如何影响未来任务 $T_{j>i}$ 上的表现。
效率指标： 追踪模型大小、推理 (inference)延迟、内存使用以及在任务序列中学习更新的计算成本。模型是否保持高效？

持续学习策略的选择涉及性能、计算开销、内存需求和实现复杂性之间的权衡。通过PEFT进行参数 (parameter)隔离通常为优化后的大语言模型 (LLM)提供了一种有吸引力的平衡，既保留了基础模型的效率，又允许其适应。然而，管理大量适配器并了解它们潜在的相互影响仍然是一个活跃的研究方向。

持续学习是部署真正自适应且寿命长的AI系统的重要一步。解决优化模型带来的特殊挑战，确保了模型演进过程中不会失去压缩和加速的优势，使高效AI在动态环境中更具可持续性和适用性。

这部分内容有帮助吗？

参考文献

Overcoming catastrophic forgetting in neural networks, James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran, Raia Hadsell, 2017 Proceedings of the National Academy of Sciences, Vol. 114 (National Academy of Sciences) DOI: 10.1073/pnas.1611835114 - 这篇开创性论文介绍了弹性权重巩固（EWC），一种通过惩罚对先前任务重要权重变化的正则化方法，以减轻灾难性遗忘。