趋近智
宪法人工智能 (CAI) 过程,特别是其监督学习 (SL) 阶段,不仅生成微调模型,还产生重要成果。此阶段包括向大型语言模型 (LLM) 提供提示,让人工智能根据某个宪法来评价回复,然后让人工智能根据评价修改回复。这会得到一个数据集,包含大量符合宪法原则的行为调整示例。我们可以不将 CAI SL 阶段和 RLAIF 阶段视为独立的步骤,而是将前者的输出应用于后者,以改进对齐效果。这种整合旨在将 CAI 基于原则的指导融入 RLAIF 基于偏好的优化中,以期实现更有效的对齐。
一种直接的整合方式是,使用在 CAI SL 阶段微调过的 LLM 作为 RLAIF 训练的起点。回顾一下,CAI SL 阶段通过评价和修改回复对的模型进行微调,从而通过自我纠正的示例,有效地让模型掌握宪法原则。
我们可以不用通用预训练或指令微调模型来初始化 RLAIF,而以 CAI 微调模型作为开始,这会带来潜在好处:
此实现仅涉及获取 CAI SL 微调阶段的最终检查点,并在 RLAIF PPO 训练循环开始时,将这些权重加载为初始策略 πθ 和可能的参考策略 πref。
在 CAI SL 阶段生成的数据集通常包含以下元组:(prompt, initial_response, critique, revised_response)。这些结构化数据可以重新用于创建适合训练 RLAIF 偏好模型 (PM) 的偏好对。
核心想法是,对于给定提示,将符合宪法原则的修改回复视为比初始回复更优。评价和修改过程在宪法的引导下,作为一种隐含的偏好判断:模型应该生成类似修改回复的内容,而不是初始回复。
因此,对于给定提示 p、初始回复 rinitial 和修改回复 rrevised,我们可以生成一个偏好对 (rchosen,rrejected),其中 rchosen=rrevised,rrejected=rinitial。
这会创建数据集 DCAI_prefs={(p,rrevised,rinitial)}。然后,此数据集可以与标准 RLAIF AI 标注器生成的偏好数据(其比较当前策略的两个输出 rA 和 rB)结合起来。
考虑要点:
偏好模型随后通过使用以下损失函数进行训练,以最大化所选回复的似然并最小化被拒绝回复的似然:
LPM=−E(p,rchosen,rrejected)∼Dcombined[log(σ(fPM(p,rchosen)−fPM(p,rrejected)))]其中 fPM 是偏好模型的评分函数,σ 是 Sigmoid 函数,Dcombined 是 RLAIF 生成数据和 CAI 衍生偏好数据的并集。
另一种方法是直接将成功的 CAI 示例注入 RLAIF PPO 阶段使用的经验缓冲区。PPO 算法通过采样提示、使用当前策略 πθ 生成回复、使用奖励模型(基于偏好训练)评估这些回复,以及更新策略来学习。
我们可以用从 CAI SL 数据集衍生的元组 (p,rrevised) 来扩充经验缓冲区。当 PPO 算法采样经验以更新策略时,它会偶尔提取这些高质量、经过宪法原则核查的示例。
益处:
此实现需要修改 PPO 训练器中的经验收集或采样机制,以将这些预计算示例与在线生成内容一起包含在内。必须注意为这些注入的样本分配适当的奖励分数和潜在的优势估计值,这很可能使用训练好的 RLAIF 偏好/奖励模型来为提示 p 的 rrevised 打分。
利用 CAI 产出提升 RLAIF 的整合要点:(1) 使用 CAI 微调模型初始化 RLAIF 策略。(2) 使用 CAI(提示、初始、修改)数据生成偏好对,用于 PM 训练。(3) 使用 CAI 示例为 PPO 经验缓冲区提供初始数据。(4) 潜在地在 AI 偏好标注器内部使用 CAI 微调模型本身。
通过巧妙地重用 CAI SL 阶段的产出,RLAIF 训练可以用对齐程度更高的模型进行初始化,从符合宪法原则的偏好数据中获益,并可能更快收敛或达到更好的状态。这种整合将 CAI 过程从仅仅一个预训练步骤转变为后续强化学习阶段有价值的数据和初始化的来源。然而,必须仔细考虑数据选择、加权以及 RLAIF 学习到的隐含偏好与 CAI 期间编码的明确原则之间的潜在冲突。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造