将宪法AI(CAI)与AI反馈强化学习(RLAIF)结合起来,面临一个主要的架构选择:这些过程是应该按顺序执行,还是应该更紧密地结合到一个统一的训练过程中?选择顺序式或联合式流程会影响实施复杂性、计算成本、训练动态,以及最终对齐效果的性质。了解其优缺点对于设计一个高效的整合对齐系统是必须的。
顺序式训练流程
最直接的方法是按顺序应用CAI和RLAIF。通常,这包括首先执行CAI过程(包括监督式批评/修正阶段和随后的微调),然后将所得模型作为RLAIF的起点。
CAI 接 RLAIF (CAI -> RLAIF)
- 开始: 从一个基础预训练大语言模型开始。
- CAI 监督阶段: 根据宪法原则,为一组提示生成批评和修正。使用这些数据微调基础大语言模型,得到一个与CAI对齐的模型(我们称之为MCAI)。这个模型主要通过对修正数据的监督学习,学会根据宪法原则调整其输出。
- RLAIF 阶段: 使用MCAI作为RLAIF的初始策略。
- 使用MCAI(或其变体)生成成对的回答。
- 使用AI偏好标注器(如在
cai-guiding-rlaif中所述,也可能受到宪法原则的指导)为输入提示x生成偏好数据(ypreferred,yrejected)。
- 在此数据上训练一个AI偏好模型P(ypreferred>yrejected∣x)。
- 根据偏好模型得分定义一个奖励函数R(x,y)。
- 使用PPO等强化学习算法进一步微调MCAI,优化策略π以最大化预期奖励: Ex∼D,y∼π(y∣x)[R(x,y)] 同时控制与初始策略MCAI的偏差。这产生了最终模型,Mfinal。
典型的顺序式流程,模型首先进行CAI对齐,然后进行RLAIF优化。
顺序式流程的优点:
- 实施简单: 每个阶段(CAI-SFT、RLAIF)都可以使用既定工作流程独立开发、测试和调试。这种模块化降低了整体实施的复杂程度。
- 清晰性: 每种对齐技术的作用明确。CAI确立了对明确规则的遵守,而RLAIF根据这些规则或AI标注器捕获的其他标准来优化偏好。
- RL的稳定起点: 与基础大语言模型相比,CAI对齐模型MCAI通常为RL提供了表现更好的初始策略,可能使得强化学习训练更稳定、更高效。它已经学会避免许多宪法识别出的不理想输出。
顺序式流程的缺点:
- 可能存在的次优性: 初始CAI阶段可能过度修正或引入偏差,这限制了RLAIF阶段寻找最优策略的能力。最终模型受限于在CAI步骤中走过的路径。
- 错误传播: 宪法、批评/修正生成或CAI微调过程中的缺陷会固化在MCAI中,并直接传递给RLAIF阶段。
- 独立的训练阶段: 需要管理两个独立的、可能资源密集型的训练阶段。
一种较不常见的变体是RLAIF接CAI,这可能主要将CAI作为最后的过滤或轻量级微调步骤,在偏好优化后强制执行硬性约束。然而,CAI -> RLAIF序列通常更符合原始的宪法AI方法。
联合式训练流程
联合式训练流程旨在更紧密地结合CAI和RLAIF,可能同时优化对宪法原则的遵守和AI偏好,或允许它们在单一训练过程中动态地相互影响。
方法:
-
多目标强化学习: 将训练视为一个多目标优化问题。强化学习算法(例如PPO)基于结合了AI偏好得分和宪法遵守程度的奖励信号来优化策略π。奖励函数可能形如:
R组合(x,y)=wpref⋅R偏好(y)+wconst⋅R宪法(y)−β⋅DKL(π(⋅∣x)∣∣πref(⋅∣x))
这里,RPref(y)是来源于AI偏好模型的奖励,RConst(y)是奖励遵守宪法原则的奖励组成部分(这可以来源于CAI批评器或更简单的启发式方法),wpref和wconst是平衡目标之间的权重,KL散度项惩罚偏离参考策略πref的行为(参考策略可以是基础模型或CAI-SFT模型)。
-
整合偏好标注: 修改RLAIF偏好数据生成步骤本身。当AI标注器比较两个回答(y1,y2)时,其决策可以明确受到宪法原则的指导。例如,它可能首先检查是否有任何回答违反了某项原则,自动降低违规者的权重或拒绝它们,然后在根据其他特性做出偏好判断。
-
组合损失函数: 如果CAI过程的一部分可以被构造成损失函数(例如,最小化生成被批评器标记输出的可能性,或最大化CAI-SL阶段修正输出的可能性),则这种损失(LCAI)可能被添加到强化学习目标(LRLAIF,例如PPO裁剪替代目标)中。
L总=LRLAIF+λLCAI
有效实施这需要仔细设计LCAI并调整权重因子λ。
联合训练流程的示意图,在强化学习循环中使用组合奖励信号。
联合式流程的优点:
- 整体优化: 可能通过在优化过程中直接平衡宪法原则和AI偏好来找到更好的对齐方案,而不是顺序优化它们。
- 动态作用: 允许宪法原则的影响在强化学习的探索和优化过程中实时地直接塑造模型行为。
- 潜在效率: 单一、整合的训练循环在某些情况下可能比两个完全独立的阶段计算效率更高,特别是当组件或计算可以共享时。
联合式流程的缺点:
- 实施复杂性: 设计、实施、调整和调试明显更复杂。需要仔细处理多个相互作用的组件和目标。
- 调整难题: 平衡不同的目标(例如,设置wpref、wconst或λ)并非易事,通常需要大量实验。调整不当可能导致一个目标压倒另一个或导致训练不稳定。
- 稳定性问题: 强化学习循环可能敏感;通过整合目标或奖励组成部分增加额外复杂性会加剧稳定性问题。定义一个可靠的RConst信号也可能带来挑战。
选择流程结构
最佳选择很大程度上取决于具体情况:
实际系统也可能采用混合方法。例如,可以使用顺序式CAI -> RLAIF流程,但在RLAIF数据生成过程中加入宪法检查,或在奖励函数中添加轻微的宪法惩罚,在不引入完全联合优化的全部复杂性的前提下,将元素混合使用。无论选择何种流程,仔细的监控和评估(如在第7章中所述)都十分必要,以理解每个组成部分如何影响最终模型的行为。