模型编辑用于安全问题修正

模型编辑提供了一条直接的途径，可以在不进行完整再训练周期的情况下，修正已训练大型语言模型（LLM）中具体的、已识别的安全缺陷。尽管可解释性技术帮助我们了解模型为何可能表现出不安全行为，监测帮助我们发现部署后的此类行为，但模型编辑提供了直接干预的手段。可将其视为对模型的参数 (parameter)或内部表示进行有针对性的“手术”，以修正一个局部问题，而非制定一套全新的训练方案。

当安全问题在大量训练或部署后被发现时，这种方法尤其适用。重新训练整个大型语言模型计算成本高昂且耗时。此外，仅仅向微调 (fine-tuning)数据中添加纠正性示例，不能保证特定的问题行为能够得到修正，也无法避免其他能力可能出现的退化。模型编辑旨在进行更直接的干预。

为何考虑模型编辑来处理安全问题？

模型编辑技术提供了一些潜在优势，用于解决安全疑虑：

精确性： 它们能够针对特定不期望的行为（例如，对特定类型查询生成有害回复，传播通过可解释性分析识别的特定有害刻板印象），且对模型一般能力的影响可能最小化。
效率： 相比于重新训练万亿字节级别模型，编辑可以显著更快，且需要更少的计算资源，从而能够更快地应对已发现的安全事件。
直接修正： 当可解释性方法明确指出特定机制时（如错误的知识回忆或有偏见的表示），编辑技术会尝试直接修改这些机制。

然而，需要认识到的是，模型编辑是一种先进技术，带有自身一系列重大的挑战，我们将在稍后进行讨论。

模型编辑实现安全修正的方法

几类技术属于模型编辑范畴，通常改编自最初侧重于事实准确性或知识更新的研究：

1. 有针对性的知识与行为修改

这些方法侧重于改变模型对特定输入的输出。如果LLM错误地将有害的刻板印象当成事实，或对给定提示生成不安全的指令，这些技术旨在修改底层参数 (parameter)，以便为该输入（以及可能相似的输入）生成修正后的安全输出，同时保留其他方面的行为。

定位与编辑方法： 像ROME（秩一模型编辑）和MEMIT（Transformer中的批量内存编辑）这样的技术，首先通过识别对问题输出影响最大的特定层或参数来操作（通常使用因果追踪或归因方法）。然后它们计算一个最小的更新量（例如，对权重 (weight)矩阵进行秩一修改），以改变模型在该位置的内部激活，从而改变目标输入的最终预测。优化目标通常被定义为：在最小化对其他不相关输入输出改变的约束下，最大化特定输入所需（安全）输出的概率。

例如，如果模型对提示 $x_{触发}$ 生成有害内容 $y_{不良}$ ，那么目标是找到模型参数 $\theta$ 的一个更新量 $\Delta \theta$ ，使得编辑后的模型 $\theta' = \theta + \Delta \theta$ 能为 $x_{触发}$ 生成安全输出 $y_{安全}$ ，同时确保对于不相关的输入 $x$ ，有 $p(y | x; \theta') \approx p(y | x; \theta)$ 。

2. 观念与表示编辑

这种方法更具挑战性，通常也更复杂。它并非针对特定输入修改行为，而是旨在修改模型对某些被认为不安全或不期望的观念的内部表示。例子包括：

观念清除： 如果分析显示模型激活空间中的某些方向与有害观念强烈关联（例如，特定偏见、毒性标记 (token)），技术会尝试将激活远离这些方向投射，或中和主要负责表示这些观念的神经元。这旨在减少模型在更广泛的语境中唤起该观念的倾向。
引导表示： 在生成过程中修改激活，以引导模型远离不安全状态或趋向期望的属性（如无害性），有时由独立的分类器引导，或基于激活空间中已识别的“安全向量 (vector)”。

这些方法通常高度依赖可解释性研究的洞察（如前面讨论过的观念探测），以识别要修改的相关内部表示。

模型编辑流程

有效应用模型编辑需要一个仔细的、迭代的过程：

应用模型编辑处理安全问题的一个典型流程。评估是一个重要的反馈循环。

识别缺陷： 明确定义要修正的具体安全缺陷。这通常来源于监测日志、红队测试结果或详细的可解释性分析。
定位目标： 使用诊断工具（因果追踪、归因）或编辑算法自身的定位机制，以精确找到与缺陷相关的模型组件（参数 (parameter)、激活、表示）。
应用编辑： 执行所选的模型编辑算法（例如，计算并应用权重 (weight)更新，修改表示向量 (vector)）。
彻底评估： 这可以说是最重要和最具挑战性的一步。评估必须衡量：
- 针对性： 编辑后的模型现在是否能为特定问题输入产生所需的安全行为？
- 泛化性/局部性： 编辑是否对模型的性能产生了负面影响，在各种不相关输入和任务上？检查标准基准测试和自定义测试套件。
- 复述鲁棒性： 该修正是否对原始问题输入的轻微变体或复述有效？
- 意外后果： 编辑是否无意中引入了新的失败模式或安全漏洞？对编辑后的模型进行严格的红队测试通常是必要的。

如果评估失败，流程可能需要进行调整后重复，或者它可能表明模型编辑不适合该特定问题，可能需要更广泛的再训练或再对齐 (alignment)策略。

挑战与权衡

模型编辑并非万能。它面临重大的障碍：

针对性与泛化性： 在不广泛损害模型能力的前提下实现精确编辑是很困难的。过于局部的编辑可能无法泛化，甚至对触发输入的轻微复述也无效。
可扩展性： 尽管像MEMIT这样的技术旨在一次性编辑多个事实/行为，但高效可靠地编辑大量可能彼此关联的安全问题仍然是一个未解决的难题。
复杂行为： 编辑简单的事实回忆更容易处理，比修改复杂、涌现 (emergence)的行为更易处理，例如难以察觉的偏见或推理 (inference)缺陷，这些行为可能高度分布在网络中。
持久性： 通过直接参数 (parameter)修改进行的编辑，可能脆弱或被覆盖，在后续的微调 (fine-tuning)或持续学习过程中。
评估复杂性： 如前所述，彻底验证编辑的成功和安全性，在庞大的潜在输入空间中，既计算成本高昂，方法上也充满挑战。

编辑与可解释性的关联

模型编辑与可解释性密不可分。可解释性方法对于识别需要编辑的内容以及模型中相关机制的位置通常不可或缺。反之，模型编辑也可作为可解释性的实验工具；研究人员可以通过编辑特定神经元或电路，并观察对模型行为的影响来测试关于其功能的假设（“因果干预”）。

模型编辑代表了一个前沿方向，在使LLM更安全、更可靠方面。尽管仍是一个活跃的研究方向，并存在实际局限，但它提供了一个潜在的强大工具，用于有针对性的干预，补充了更广泛的对齐 (alignment)和监测策略。它需要仔细的应用、严格的评估以及对底层模型机制的透彻理解，这通常通过本章讨论的可解释性技术获得。

这部分内容有帮助吗？

参考文献

Locating and Editing Factual Knowledge in Large Language Models, Kevin Meng, David Bau, Huiyuan Chen, Zhiting Hu, Ofir Press, Meng Qu, Alexander Rush, 2022 Advances in Neural Information Processing Systems (NeurIPS), Vol. 35 (NeurIPS) DOI: 10.5591/978-1-7138-3094-1.921 - 介绍了ROME，一种通过修改特定权重直接编辑LLM中事实关联的基础方法，提供精确性和效率。
Mass-Editing Memory in a Transformer, Kevin Meng, Arnab Ghosh, David Bau, Raphael Gontijo Lopes, Sharan Narang, Jonathan Frankle, Ofir Press, Alexander Rush, 2023 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2210.07289 - 将ROME扩展，以实现高效地同时编辑多个事实，解决了模型编辑中的可扩展性挑战。