顺序适应与持续学习

“模型通常需要持续学习。虽然微调 (fine-tuning)能使预训练 (pre-training)模型适应特定任务或情境，但模型常需按序学习。初始适应阶段后，可能会有新数据到来、需求变化或需要额外技能。这一过程，称为顺序适应或持续学习，是指在不每次从头开始微调的情况下，更新一个已经微调过的模型，以引入新的信息或能力。”

设想一个基于历史支持工单微调的客服聊天机器人。随着新产品的推出或公司政策的变化，聊天机器人需要吸收这些新信息。如果仅仅用新数据来微调现有模型，会面临一个重要问题：灾难性遗忘。

灾难性遗忘的问题

灾难性遗忘指的是神经网络 (neural network)（包括大语言模型 (LLM)）在学习新任务时，会突然丧失在之前任务上表现的能力。在标准微调 (fine-tuning)过程中，梯度更新会修改模型参数 (parameter)，以减少当前批次数据（来自新任务）的损失。这些更新可能会覆盖对之前任务表现良好的参数配置，从而实际上抹去之前获得的知识。

设想一个模型，先针对任务A（例如，总结医疗报告）进行微调，然后针对任务B（例如，回答患者关于药物的问题）进行后续微调。如果没有特别的干预，任务B的微调过程可能会大幅降低模型执行任务A的能力，即使任务A在不久前才成功习得。

朴素顺序适应的示意图。直接在任务B上进行微调会修改为任务A学习的参数，可能导致原始任务的性能下降。

需要顺序适应的情境

顺序适应在多种实际情况中都适用：

演变中的情境： 法律、医学或金融等情境持续演变。在这些情境中运行的模型必须适应新的法规、发现或市场状况，同时不遗忘基础知识。
技能累积： 组织可能希望一个模型随时间推移习得多种技能。例如，一个基础模型可以先微调 (fine-tuning)用于情感分析，随后用于命名实体识别，之后可能用于问答，同时保持对早期技能的熟练度。
个性化： 与用户交互的模型可能需要根据随时间累积的个人偏好或交互历史进行适应。
数据增量可用性： 有时，任务数据是逐步可用的。顺序适应允许模型随着更多数据的到来而改进，而无需在整个累积数据集上进行昂贵的再训练。

持续学习的策略

解决灾难性遗忘是成功顺序适应的中心议题。下一节将详细介绍具体的缓解技术，主要方法包括：

复习（或回放）： 在新任务（任务B）的训练过程中，包含一部分来自之前任务（任务A）的数据。这使得模型在学习新任务的同时保持在旧任务上的表现。难题在于存储或获取有代表性的旧数据以及增加的计算成本。
基于正则化 (regularization)的方法： 在后续微调 (fine-tuning)阶段，向损失函数 (loss function)添加一个正则化项。该项惩罚对之前任务重要的参数 (parameter)的改动，从而促进稳定性。弹性权重 (weight)整合（EWC）是一个典型例子。
参数隔离与扩展： 不更新所有参数，而是为特定任务分配专门的参数集。可以使用适配器模块等技术（在第4章讨论过），为新任务添加新的适配器，同时可能冻结基础模型和之前的适配器。这在物理上将负责不同任务的参数分开。
动态架构： 随着新任务的学习，修改模型架构本身，例如通过添加为新数据分布定制的新分支或模块。

平衡可塑性与稳定性

顺序适应围绕着管理稳定性-可塑性困境。模型需要足够的可塑性来有效学习新信息，但也需要稳定性来保留现有知识。朴素的微调 (fine-tuning)方法能最大限度地提高可塑性，但稳定性较差（灾难性遗忘）。反之，过度约束模型可能会保留旧知识，但会妨碍其适应新任务的能力。

有效的持续学习策略旨在达成平衡，使模型能够随时间优雅地积累知识和技能。这需要仔细考量所选的适应技术、数据管理、计算预算以及如何衡量所有已学习任务的性能。

下一节将更详细地检验旨在缓解灾难性遗忘的特定方法，从而实现大语言模型 (LLM)更有效的顺序适应。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Overcoming catastrophic forgetting in neural networks, James Kirkpatrick, Razvan Pascanu, Neil C. Rabinowitz, John P. Lillicrap, Peter Moreton, Gregory Sidorov, Niru Mahendran, Richard Hadsell, Demis Hassabis, 2017 Proceedings of the National Academy of Sciences, Vol. 114 (National Academy of Sciences) DOI: 10.1073/pnas.1611835114 - 介绍了弹性权重固化（EWC），这是一种通过识别和保护对先前任务重要的参数来减轻灾难性遗忘的正则化方法。
A Comprehensive Survey of Continual Learning: Theory, Methodology, and Application, Liyuan Wang, Xingxing Zhang, Maobin Li, Ling Luo, Jianchao Tan, Ruifeng Yuan, Jian Yang, Cong Chen, Xiaofeng Zhang, 2023 arXiv preprint arXiv:2303.14814 DOI: 10.48550/arXiv.2303.14814 - 全面概述了持续学习，涵盖了各种策略、挑战和跨领域应用，包括与LLM顺序适应相关的讨论。
LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, 2021 arXiv DOI: 10.48550/arXiv.2106.09685 - 介绍了低秩适应（LoRA），这是一种参数高效的微调技术，通过添加小的、任务特定的模块，在LLM的顺序学习场景中具有高度相关性。