设计能有效结合宪法AI (CAI) 和来自AI反馈的强化学习 (RLAIF) 的系统,需要仔细思考这些方法如何相互影响。架构决定着数据流动、模型依赖、训练计划,以及最终结合对齐过程的效用和效率。存在多种架构模式,每种都有各自的优点和缺点。
顺序架构
最直接的方法是按顺序应用CAI和RLAIF。
CAI预训练,随后RLAIF
这是一种常见模式,模型首先经历CAI的监督微调(SFT)阶段,随后使用RLAIF进行微调。
-
CAI阶段:
- 从基础LLM生成初始回应。
- 使用AI评论器(根据宪法指导)找出问题。
- 使用AI修订器(或适当提示的原始LLM)根据评论生成更好的回应。
- 从(提示,修订后的回应)对或可能从(提示,评论,修订后的回应)元组构建SFT数据集。
- 在此数据集上微调基础LLM。这会产生一个模型,我们称之为 LLMCAI。
-
RLAIF阶段:
- 将LLMCAI用作RLAIF的初始策略。
- 使用LLMCAI针对提示x生成回应对(y1,y2)。
- 使用AI偏好标注器(它可能也由宪法指导,或是一个单独的模型)生成偏好标签(例如,y1≻y2)。
- 在这些AI生成的标签上训练偏好模型RM(x,y)。
- 使用从RM获得的奖励信号,使用PPO等RL算法进一步微调LLMCAI。这会得到最终对齐的模型,LLMCAI→RLAIF。
优点:
- 简洁性和模块化。每个阶段都独立,可以相对独立地进行调试。
- CAI阶段为RLAIF提供了良好的初始设置,通过从一个已在一定程度上遵守宪法的策略开始,可能使RL阶段更稳定且样本效率更高。
缺点:
- 如果AI偏好模型未能充分掌握或优先考虑CAI SFT阶段学到的宪法原则,RLAIF阶段可能导致模型偏离这些原则。
- CAI评论过程中的信息(修订的原因)可能在随后的RLAIF阶段中未能得到充分利用,因为该阶段主要侧重于成对偏好。
RLAIF预训练,随后CAI完善
尽管不太常见,但从理论上讲,可以先执行RLAIF以根据AI偏好针对有益性/无害性进行优化,然后应用CAI SFT阶段以专门强制经RLAIF微调的模型遵守宪法。如果主要目的是偏好优化,并将宪法作为最后的完善或安全检查层,则可以考虑此方法。然而,这有CAI阶段覆盖RLAIF期间学到的良好行为的风险,或难以纠正RL已根深蒂固的行为。
迭代和交替架构
CAI和RLAIF的步骤可以交错执行,而非单一顺序。例如,可以在以下操作之间交替:
- 使用当前策略生成数据。
- 对部分生成内容进行CAI式的评论/修订循环,以产生侧重于遵守宪法的SFT数据。
- 对另一部分生成内容执行RLAIF偏好标注步骤,以产生偏好数据。
- 结合SFT(来自CAI数据)和RL(使用在RLAIF数据上训练的偏好模型)更新模型。
此方法旨在使模型在整个训练过程中都与明确的宪法和学到的AI偏好保持一致。
优点:
- 与纯粹的顺序CAI → RLAIF相比,可能更好地保持对宪法的遵守,因为宪法检查与RL同时进行。
- 允许在宪法遵守和偏好优化之间动态调整侧重点。
缺点:
- 训练循环和数据管理的复杂性增加。
- 需要仔细平衡SFT和RL更新,以避免不稳定或梯度冲突。确定正确的更新计划和权重具有挑战性。
- 由于组件之间的相互影响,调试变得更加困难。
紧密结合/联合架构
这些架构将CAI原则更直接地融入RLAIF过程本身,而不是将它们视为独立的预训练或交替步骤。
宪法奖励塑形
RLAIF中使用的奖励函数可以增加一个直接体现对宪法遵守的项。标准的RLAIF奖励通常基于偏好模型得分,Rpref=σ(RM(x,y))。这可以修改为:
Rcombined(x,y)=Rpref(x,y)+λ⋅Rconst(x,y)
此处:
- Rconst(x,y) 是一个奖励组成部分,它通过对照宪法评估回应y获得。这可能涉及使用CAI评论器模型来评估回应的遵守程度或惩罚具体的违规行为。
- λ 是一个超参数,用于平衡学到的偏好和明确宪法原则的影响。
实现: 计算Rconst可能涉及在RL rollout阶段对生成的回应运行CAI评论器。
宪法偏好过滤/重新加权
宪法可以影响偏好模型的训练数据,而不是修改奖励函数。
- 过滤: AI生成的偏好对(y1,y2)可以根据对宪法的遵守情况进行过滤。例如,如果y1和y2都严重违反宪法,这对可能被丢弃。或者,如果AI偏好标注器偏好违反宪法的回应(ybad)而非符合宪法的回应(ygood),则此特定标签可能被忽略或纠正。
- 重新加权: 在偏好模型训练期间,可以根据所涉及回应的宪法遵守情况对偏好对进行加权。其中偏好回应更符合宪法的对可以获得更高的权重。
实现: 要求在偏好模型训练之前或期间对照宪法评估回应。
RL优化中的宪法约束
更完善的方法可以将宪法遵守作为约束直接纳入RL优化算法中(例如,修改PPO目标)。这可能涉及如果策略生成了预测会违反宪法的回应,则在损失函数中增加惩罚项。这有难度,通常需要像约束策略优化这样的方法。
紧密结合架构的优点:
- 在确保最终模型同时尊重学到的偏好和明确的宪法规则方面,具备最大的潜力。
- 允许宪法原则直接指导优化过程。
紧密结合架构的缺点:
- 实现上复杂度较高。设计Rconst、整合过滤/重新加权逻辑或修改RL目标需要精细的工程设计。
- 调整难度,尤其是在寻找适当的平衡(λ)或加权方案方面。
- 偏好模型和宪法检查之间可能出现冲突信号,这可能导致训练不稳定。
系统组件和数据流
无论高层架构如何(顺序、迭代、紧密结合),请考虑以下具体组件:
- 基础LLM: 用于CAI评论/修订步骤、RLAIF策略以及可能的AI偏好标注器的,是否是相同的底层模型?使用相关模型(从同一基础模型微调而来)很常见。
- 宪法表示: 相关组件(评论器、奖励计算、过滤逻辑)如何访问和理解宪法?
- 数据管道: 数据如何在阶段或组件之间流动?数据集(CAI SFT数据、RLAIF偏好数据)存储在哪里?它们如何进行版本控制和管理?
- 模型专业化: 是否应为评论、修订和偏好标注训练专门的模型,还是使用一个具有多种能力的LLM,并针对不同任务给予不同提示?专业化可能会在每个子任务上带来更好的表现,但会增加系统复杂性和推理开销。
顺序架构(CAI → RLAIF)与一个将宪法评估直接纳入RL微调奖励信号的紧密结合架构的对比。
选择架构
最适合的架构取决于多个因素:
- 对齐目标: 严格遵守宪法是主要目的,还是更广泛偏好优化的一个保障?紧密结合架构能提供更强的宪法执行力。
- 复杂性容忍度: 顺序架构实现和调试起来更简单。迭代和紧密结合的系统会带来相当大的工程复杂性。
- 计算资源: 紧密结合的方法,特别是那些需要在RL rollout期间进行宪法评估的方法(如奖励塑形),可能会增加每个训练步骤的计算成本。
- 宪法性质: 简单、易于验证的宪法可能更适合直接结合(例如,Rconst),而复杂的宪法则需要精密的解释。
设计系统架构是将CAI和RLAIF搭配的重要一步。它涉及平衡每种方法的益处与实现、训练稳定性及计算成本等实际挑战。在您特定项目目标的背景下评估这些权衡,对于构建有效的结合对齐流程必不可少。