趋近智
尽管基于AI反馈的强化学习(RLAIF)提供了一种可扩展的方法来根据学习到的偏好优化语言模型,但它本身不能保证遵循预设的道德或安全原则。AI偏好模型在AI生成的比较数据上训练,可能会产生偏见,或将互动指标置于明确规则之上。另一方面,宪法AI(CAI)在其监督优化阶段,擅长强制遵循一组明确的原则(即宪法)。结合这些方法,CAI 能够为更具变动性的RLAIF过程提供结构化的、基于原则的引导。
这种整合超越了简单地先运行CAI再运行RLAIF的做法。它包含运用宪法框架,主动塑造和限制RLAIF的组成部分,形成一个更加符合原则的优化循环。
RLAIF的主要部分在于生成偏好标签(比较成对响应)的AI模型。这个标注器可以直接受到宪法的影响。我们可以明确指示它考虑宪法遵循情况,而不是让标注器AI仅仅根据其自身的隐含标准来选择“更好”的响应。
具体方法:
宪法引导的提示: 当向AI标注器查询时,以比较针对提示(x)的两个响应(y1,y2),请求可以包含相关的宪法原则。提示可能如下所示: "给定以下提示:[提示 x]\n以及以下宪法原则:[相关原则]\n考虑有用性、诚实性、无害性以及对原则的遵循,哪个响应更好?\n响应 A: [y1]\n响应 B: [y2]\n偏好(A 或 B):" 这使得标注器在其指定的规则背景下进行比较。
对标注器进行微调: 一个更有效的方法包含对AI偏好标注器本身进行微调。微调数据集可以包含偏好明确由宪法一致性决定的示例,即使某个响应在其他方面(如冗长或风格)可能表面上“更好”。这使得标注器了解到宪法相对于其他偏好标准的重要性。
多目标偏好: 标注过程可以被分解。AI标注器可以为一般质量(有用性、连贯性)和宪法遵循分别生成分数。然后将这些分数组合成一个最终的偏好标签,宪法遵循可能被赋予更高的权重。例如,违反宪法的响应可能会自动被标记为“更差”,无论其他质量如何。
益处: 这确保了用于训练RLAIF奖励模型的偏好数据从一开始就反映了期望的道德准则,而不是希望RL过程偶然发现它们或间接学习它们。它在偏好学习阶段注入了明确的规则。
除了引导数据生成(偏好标注)之外,宪法可以直接影响强化学习阶段中使用的奖励信号。
具体方法:
宪法惩罚项: 标准的RLAIF奖励函数 rRLAIF 通常从偏好模型(PM)分数中获得:rRLAIF=RewardModel(x,y)。我们可以引入一个明确的惩罚项,基于在生成的响应 y 中检测到的宪法违规。这需要一种机制,在RL运行期间根据宪法评估 y,可能使用CAI批评器模型或专门的分类器。修改后的奖励函数 rcombined 可以是:
rcombined(x,y)=rRLAIF(x,y)−λ⋅违规分数(y,宪法)这里,违规分数 对更严重的违规返回更高的值,λ 是控制惩罚强度的超参数。这直接阻止RL策略生成违反宪法的文本,即使基础奖励模型可能为其分配高分。
过滤或限制奖励: 被标记为违反宪法的响应,其奖励可以被限制到一个低值,或完全从RL更新批次中过滤掉。这在优化过程中充当硬性限制。
条件奖励模型: 奖励模型本身可以基于宪法或特定原则设定条件,类似于偏好标注器可以被引导的方式。这可能需要对奖励模型进行架构修改,以接受宪法背景作为输入。
益处: 这在RL优化期间提供了一个直接的反馈信号,即使偏好模型存在缺陷或未能完全捕捉所有宪法细节,也能加强对原则的遵循。它在策略更新步骤中充当一个安全层。
设想一个场景,宪法包含一条原则:“不提供非法活动的指导。”
通过在RLAIF偏好生成或奖励计算中嵌入宪法检查,我们创建了一个系统,其中RL的可扩展优化能力由宪法中明确、人为定义的原则引导。这为构建不仅有用且信息丰富,而且能可靠遵循特定安全和道德准则的LLM提供了一条有前景的道路。接下来的章节将阐述CAI监督阶段的数据如何进一步启动此过程,并讨论组合这些技术的架构。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造