趋近智
模型编辑提供了一条直接的途径,可以在不进行完整再训练周期的情况下,修正已训练大型语言模型(LLM)中具体的、已识别的安全缺陷。尽管可解释性技术帮助我们了解模型为何可能表现出不安全行为,监测帮助我们发现部署后的此类行为,但模型编辑提供了直接干预的手段。可将其视为对模型的参数 (parameter)或内部表示进行有针对性的“手术”,以修正一个局部问题,而非制定一套全新的训练方案。
当安全问题在大量训练或部署后被发现时,这种方法尤其适用。重新训练整个大型语言模型计算成本高昂且耗时。此外,仅仅向微调 (fine-tuning)数据中添加纠正性示例,不能保证特定的问题行为能够得到修正,也无法避免其他能力可能出现的退化。模型编辑旨在进行更直接的干预。
模型编辑技术提供了一些潜在优势,用于解决安全疑虑:
然而,需要认识到的是,模型编辑是一种先进技术,带有自身一系列重大的挑战,我们将在稍后进行讨论。
几类技术属于模型编辑范畴,通常改编自最初侧重于事实准确性或知识更新的研究:
这些方法侧重于改变模型对特定输入的输出。如果LLM错误地将有害的刻板印象当成事实,或对给定提示生成不安全的指令,这些技术旨在修改底层参数 (parameter),以便为该输入(以及可能相似的输入)生成修正后的安全输出,同时保留其他方面的行为。
定位与编辑方法: 像ROME(秩一模型编辑)和MEMIT(Transformer中的批量内存编辑)这样的技术,首先通过识别对问题输出影响最大的特定层或参数来操作(通常使用因果追踪或归因方法)。然后它们计算一个最小的更新量(例如,对权重 (weight)矩阵进行秩一修改),以改变模型在该位置的内部激活,从而改变目标输入的最终预测。优化目标通常被定义为:在最小化对其他不相关输入输出改变的约束下,最大化特定输入所需(安全)输出的概率。
例如,如果模型对提示 生成有害内容 ,那么目标是找到模型参数 的一个更新量 ,使得编辑后的模型 能为 生成安全输出 ,同时确保对于不相关的输入 ,有 。
这种方法更具挑战性,通常也更复杂。它并非针对特定输入修改行为,而是旨在修改模型对某些被认为不安全或不期望的观念的内部表示。例子包括:
这些方法通常高度依赖可解释性研究的洞察(如前面讨论过的观念探测),以识别要修改的相关内部表示。
有效应用模型编辑需要一个仔细的、迭代的过程:
应用模型编辑处理安全问题的一个典型流程。评估是一个重要的反馈循环。
如果评估失败,流程可能需要进行调整后重复,或者它可能表明模型编辑不适合该特定问题,可能需要更广泛的再训练或再对齐 (alignment)策略。
模型编辑并非万能。它面临重大的障碍:
模型编辑与可解释性密不可分。可解释性方法对于识别需要编辑的内容以及模型中相关机制的位置通常不可或缺。反之,模型编辑也可作为可解释性的实验工具;研究人员可以通过编辑特定神经元或电路,并观察对模型行为的影响来测试关于其功能的假设(“因果干预”)。
模型编辑代表了一个前沿方向,在使LLM更安全、更可靠方面。尽管仍是一个活跃的研究方向,并存在实际局限,但它提供了一个潜在的强大工具,用于有针对性的干预,补充了更广泛的对齐 (alignment)和监测策略。它需要仔细的应用、严格的评估以及对底层模型机制的透彻理解,这通常通过本章讨论的可解释性技术获得。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•