标准基准可提供一个基础,但评估与宪法式AI (CAI) 或 基于AI反馈的强化学习 (RLAIF) 对齐的模型,需要评估它们对抗专门设计来削弱其对齐性的输入的抵抗能力。在此情境下的对抗性输入,不仅仅是轻微扰动的句子;它们是精心设计的提示,旨在诱发违反所学宪法原则或绕过训练期间灌输的安全性和帮助性限制的行为。对齐机制,尽管有益,但有时会引入特定、可预测的失效模式,使得针对性攻击的鲁棒性测试成为一个主要的评估步骤。
可以这样理解:标准评估检查模型是否通常遵循规则。对抗性测试检查当有人积极地试图诱骗它违反这些规则时,模型是否仍然遵循规则。这对于CAI/RLAIF尤为重要,因为对齐通常基于复杂的原则 (即宪法) 或学习到的偏好 (即AI反馈模型),这些可能存在可利用的漏洞或不一致之处。
对齐模型的对抗性输入理解
对于通过CAI或RLAIF对齐的LLM,对抗性输入旨在针对对齐的特定机制。这超越了传统NLP对抗性攻击中常见的简单同义词替换或字符级扰动。在这里,我们侧重于语义攻击和提示工程技术,这些技术挑战模型对其训练目标的遵守情况:
- 越狱提示: 这些可能是最广为人知的。它们采用角色扮演(例如“扮演一个不受限制的AI……”)、情景设定(例如“在一个故事中,一个人会如何……”)、前缀注入或蓄意指令构建等技术,来诱导模型生成它通常会拒绝的有害、不道德或其它禁止的内容。目标是绕过对齐过程中学习到的安全协议。
- 指令操纵: 提示可能包含细微的歧义、冲突的指令或隐藏的命令,旨在使模型偏离其核心对齐原则(例如,有益性、无害性),即使不生成公然有害的输出。例如,提示可能在不经意间鼓励有偏见的推理或无益的含糊其辞。
- 运用习得的启发式: CAI依赖于模型从宪法中内化原则,而RLAIF使用AI偏好模型。对抗性输入可以针对这些原则或偏好的具体学习方式。模型可能对与宪法条款相似的措辞变得过度敏感,从而允许通过模仿该风格进行操纵。同样,它可能学会生成仅看似受RLAIF奖励模型偏好的输出(例如,过度顺从或奉承),而不是真正遵守其潜在意图。
- 针对宪法歧义: 如果宪法包含模糊原则或潜在矛盾,对抗性提示可以被设计成迫使模型进入这样的情况:遵守一个原则似乎违反了另一个原则,从而暴露出其习得行为中的不一致之处。
生成对抗性输入
为对齐模型创建有效的对抗性输入通常需要结合创造性和系统性方法:
- 人工构建(红队测试): 如前所述,人类专家根据他们对模型、其对齐技术 (CAI/RLAIF) 以及潜在弱点的理解来设计提示。这通常涉及迭代细化以找到成功的攻击路径。
- 自动化生成:
- 基于梯度的方法: 尽管对于离散文本生成来说较难,但运用梯度信息的技术(如果可以从模型或奖励模型中获取)有时可以引导扰动走向失效模式。
- 使用LLM进行优化: 一种有效的方法是使用另一个LLM来生成具有挑战性的提示。一个LLM可以负责生成可能导致目标模型(正在评估的模型)未能满足特定对齐标准的提示(例如,“生成一个提示,要求可能有害的信息,但以模型X可能遵循的方式进行表述”)。
- 基于模板的生成: 已知攻击类型(例如,角色扮演情景、框架)的预定义模板可以填充各种有害意图,以系统地创建大量测试用例。
- 遗传算法/搜索: 进化算法可以用于“演化”提示,从良性提示开始,并应用变异(词语替换、添加、改写),由衡量模型失败率或不良输出严重程度的适应度函数引导。
最有效的对抗性输入通常保留原始查询的表面意图,同时不经意地改变其框架或上下文以绕过防御。
衡量对抗性输入鲁棒性
评估模型对这些输入的响应需要具体的指标:
- 对抗性成功率 (ASR): 成功引出不良行为(例如,生成有害内容、违反宪法规则、表现出强烈偏见)的对抗性提示的百分比。这需要对攻击的“成功”有明确的定义。
- 严重程度分类: 人工评估员或独立的AI分类器可以根据预定义的尺度(例如,从轻微不合规到生成严重有害内容)评估模型失败的严重程度。这提供了比二元成功/失败指标更多的细节。
- 定性分析: 检查失败的类型很重要。模型是否在某些攻击类型(例如,角色扮演)上持续失败?它是否表现出特定的偏见?这种分析为未来的对齐工作提供信息。
考虑按不同攻击类别跟踪ASR:
针对对齐LLM的不同对抗性提示类别的成功率。特定类别的高成功率表明存在目标漏洞。
CAI/RLAIF鲁棒性测试中的独特挑战
测试与CAI或RLAIF对齐的模型存在特定的挑战:
- 宪法脆性: 对抗性攻击可能会在宪法措辞中发现CAI过程未涵盖的边缘情况或漏洞,即使模型通常遵循原则,也可能导致意外失败。
- 奖励模型操纵: RLAIF训练模型以最大化从AI偏好模型获得的奖励。对抗性输入可能找到在不满足预期对齐目标的情况下获得高奖励分数的方法(一种奖励作弊形式)。模型仅对奖励模型惩罚的攻击表现出强抵抗力,不一定是对所有不良行为。
- 测试的可扩展性: 在广泛的潜在输入和对齐原则范围内生成多样且有效的对抗性提示,计算成本高昂,并且随着模型的演变需要持续的努力。
对抗性输入鲁棒性测试并非一次性检查。它应该成为对齐LLM持续评估周期的一个组成部分。随着新的攻击方法出现和模型更新,对抗性测试套件也必须随之发展,以确保对齐保持有效,并能抵御蓄意颠覆的尝试。这种严谨的测试有助于建立信心,确信模型不仅是表面上的对齐,而且在维护其指定原则方面真正具备抵御性。