尽管RLHF等方法直接依赖于人类偏好判断,但扩展此过程,特别是对于无害性这类方面,会带来不少困难。为每种潜在的不良行为收集足够高质量的人工反馈既困难又成本高昂。宪法式AI (CAI) 提供了一种替代方案,它旨在通过让模型从一套明确的准则或一部“宪法”中学习,而不是直接对有害内容进行人工标注,从而培养期望的行为(尤其是无害性)。核心思想是使用自然语言指定的规则来引导AI的行为。AI被训练来识别并修改与其“宪法”相冲突的输出,而不是由人类识别和标注有害输出。此过程通常包含两个主要阶段:一个监督学习(SL)阶段,之后是一个强化学习(RL)阶段。宪法:定义行为准则这部“宪法”是旨在引导AI响应的一系列准则或规则。这些准则通常侧重于促进有用性和无害性,同时阻止生成有毒、偏见或非法输出。宪法准则的例子可能包含:“选择最无害且符合道德的回复。”“识别并评论回复中任何有害、不道德或带有偏见的内容。”“避免生成可能被视为宣扬非法行为或仇恨言论的回复。”“确保回复有用、诚实且不提供误导性信息。”这些准则在传统意义上并非硬编码的约束。相反,它们在训练过程中用于教导模型如何评估和调整自身的行为。宪法本身可以由人类起草,甚至可以在AI辅助下启动,从高层目标开始。宪法式AI训练流程CAI训练通常分两个阶段进行:阶段1:监督学习(评论与修订)第一阶段侧重于教导模型根据宪法评论自身的输出,并相应地进行修订。这是通过一个监督学习过程实现的,无需人工对不良内容本身进行标注。生成初始回复: 一个初始模型(通常是经过标准方法预训练或微调的、侧重于有用性的模型)被提示对各种输入生成回复,包括潜在问题输入(例如,请求有害信息)。AI生成的评论: 模型随后再次被提示,这次是特别要求其根据宪法中的一条准则评论其自身之前生成的回复。例如,给定一个回复和“避免生成有毒内容”的准则,模型可能会被提示:“评论以下回复是否包含有毒内容:[之前的回复]”。AI生成的修订: 在评论之后,模型被提示修订其初始回复,将评论和宪法准则纳入考量。提示语可能是:“根据评论‘[评论文本]’,重写初始回复‘[初始回复]’,使其更符合准则‘[准则文本]’。”微调: 模型随后在由这些AI生成的修订组成的数据集上进行微调。它学习直接生成更接近修订过的、符合宪法的版本。这个SL阶段有效地教导模型基于所提供的伦理和安全准则进行自我纠正。阶段2:来自AI反馈的强化学习(RLAIF)第二阶段使用强化学习进一步提升模型的对齐程度,但它使用的是AI生成的偏好(RLAIF),而不是人工偏好(RLHF)。生成回复对: 阶段1中微调的模型用于对各种提示生成多个回复。AI偏好标注: 一个AI模型(通常是同一个模型或专注于有用性/无害性评估的相关模型)被提示比较回复对。它会选择更符合宪法的回复。例如:“根据宪法,回复A和回复B,哪一个更无害且符合道德?回复A:[...] 回复B:[...]”。偏好模型训练: 一个偏好模型在这个由AI生成的比较数据(选定的回复与被拒绝的回复)组成的数据集上进行训练,类似于RLHF中奖励模型的训练方式,但使用AI标签。强化学习微调: 语言模型随后使用RL算法(如PPO)进行微调,训练好的偏好模型提供奖励信号。这会优化模型,使其生成AI评估器认为符合宪法的回复。整个CAI流程可以如下所示:digraph CAI_Process { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style="filled, rounded"]; edge [fontname="sans-serif", color="#495057"]; subgraph cluster_0 { label = "阶段1:监督学习(评论与修订)"; bgcolor="#f8f9fa"; color="#adb5bd"; style="filled, rounded"; prompt1 [label="输入提示"]; initial_model [label="初始LLM\n(侧重有用性)", shape=cylinder, fillcolor="#a5d8ff"]; response1 [label="初始回复"]; constitution1 [label="宪法准则", shape=note, fillcolor="#ffec99"]; critique_prompt [label="评论提示"]; critique [label="AI生成的评论"]; revision_prompt [label="修订提示"]; revision [label="AI生成的修订"]; finetuned_model_sl [label="SL微调模型\n(自我纠正)", shape=cylinder, fillcolor="#b2f2bb"]; prompt1 -> initial_model; initial_model -> response1; response1 -> critique_prompt; constitution1 -> critique_prompt; critique_prompt -> initial_model [label="评论任务"]; initial_model -> critique [label="生成"]; response1 -> revision_prompt; critique -> revision_prompt; constitution1 -> revision_prompt; revision_prompt -> initial_model [label="修订任务"]; initial_model -> revision [label="生成"]; revision -> finetuned_model_sl [label="微调数据"]; } subgraph cluster_1 { label = "阶段2:强化学习(AI反馈)"; bgcolor="#f8f9fa"; color="#adb5bd"; style="filled, rounded"; prompt2 [label="输入提示"]; finetuned_model_sl_copy [label="SL微调模型", shape=cylinder, fillcolor="#b2f2bb"]; // 使用阶段1的SL模型 resp_pair [label="生成回复对\n(回复A,回复B)"]; constitution2 [label="宪法准则", shape=note, fillcolor="#ffec99"]; compare_prompt [label="比较提示"]; preference [label="AI偏好标签\n(例如,偏好A)"]; pref_model [label="偏好模型", shape=cylinder, fillcolor="#bac8ff"]; final_model_rl [label="RL微调模型\n(符合宪法)", shape=cylinder, fillcolor="#74c0fc"]; prompt2 -> finetuned_model_sl_copy; finetuned_model_sl_copy -> resp_pair; resp_pair -> compare_prompt; constitution2 -> compare_prompt; compare_prompt -> finetuned_model_sl_copy [label="评估任务"]; // 或单独的评估器模型 finetuned_model_sl_copy -> preference [label="评估"]; preference -> pref_model [label="训练数据"]; pref_model -> final_model_rl [label="通过RL(PPO)的奖励信号"]; finetuned_model_sl_copy -> final_model_rl [label="策略更新"]; } finetuned_model_sl -> finetuned_model_sl_copy [style=invis]; // 确保阶段1指向阶段2 }宪法式AI流程通常包含一个监督式评论/修订阶段,之后是一个使用基于宪法的AI生成偏好的RLAIF阶段。优势与考量宪法式AI具有几个潜在优势:无害性的可扩展性: 它减少了对人类直接标注潜在有害或敏感内容的依赖,这类标注难以扩展,且可能给标注人员带来情感负担。明确控制: 相比仅依赖从偏好数据中学习到的隐式模式,“宪法”提供了一种更明确的方式来指定期望的行为约束。自我纠正: 初始的SL阶段直接训练模型进行自我评论和修订,这是一种可能很有价值的能力。然而,也有一些值得注意的地方:宪法质量: CAI的有效性很大程度上取决于宪法的质量、全面性和连贯性。编写不佳的准则可能导致漏洞或意想不到的后果。复杂性: 包含多个提示步骤、模型微调和强化学习循环的两阶段流程,其实施和调整都比较复杂。AI局限性: 该流程依赖于AI可靠解释准则、评论回复、执行修订和提供一致偏好判断的能力。这些步骤中的失败可能降低最终的对齐效果。有用性与无害性的权衡: 与其他对齐技术一样,基于宪法(尤其是一个侧重于无害性的宪法)进行调整有时可能导致过于谨慎或回避的回复,可能降低有用性。平衡这些方面仍然是活跃的研究方向。宪法式AI代表着在自动化对齐流程某些方面迈出了重要一步,特别是对于强制执行像无害性这样复杂的规范性约束。通过利用模型自身的解释和生成能力,并在明确准则的引导下,CAI为对齐工具集增添了有力一员,补充了RLHF和DPO等方法。