设计奖励函数涉及将成对的AI偏好(通常由像 pθ(yw≻yl∣x) 这样的模型表示,该模型能够根据AI生成的标签识别受偏好的回复)转化为可用的标量奖励信号 r(x,y)。这个奖励函数是后续强化学习阶段的根本组成部分,它指引LLM策略生成与所学偏好一致的输出。
从成对偏好到标量奖励
从RLHF继承的基本假设是,偏好模型 pθ 估算了一个潜在的奖励函数 rϕ(x,y)。一个普遍的建模方式是布拉德利-特里模型,它假定在给定提示 x 的情况下,偏好回复 yw 优于 yl 的概率可以表示为:
p(yw≻yl∣x)=exp(rϕ(x,yw))+exp(rϕ(x,yl))exp(rϕ(x,yw))=σ(rϕ(x,yw)−rϕ(x,yl))
这里,σ(⋅) 是 Sigmoid 函数。在偏好模型训练期间,我们用AI生成的偏好数据 (x,yw,yl) 来拟合 pθ,实际上学习到成对回复之间奖励差异的估算值。
我们现在的目的是,基于已训练的偏好模型 pθ,提取一个标量奖励函数 r(x,y),以反映给定提示 x 时 单个 回复 y 的质量。由于 pθ 对奖励的差异进行建模,所提取奖励函数 r(x,y) 的绝对尺度有些随意,但其相对值应反映 pθ 所学习到的偏好。
提取奖励信号
一种普遍定义奖励信号 r(x,y) 的方法涉及利用已训练偏好模型 pθ 的内部计算。许多偏好模型架构会为每个输入回复 y 计算一个内部标量得分,我们称之为 sθ(x,y)。偏好概率随后根据胜出回复和落败回复之间分数的差异计算:
pθ(yw≻yl∣x)=σ(sθ(x,yw)−sθ(x,yl))
鉴于这种结构,奖励函数的一个自然选择是直接使用这个内部得分:
r(x,y)=sθ(x,y)
这个得分 sθ(x,y) 表示根据AI偏好标注器学习到的回复 y 的质量。它直接获取了偏好模型训练期间优化的信息。
替代表述:
在一些实现中,奖励函数可以使用分数经过 Sigmoid 函数后再取对数的方式来定义:
r(x,y)=βlog(σ(sθ(x,y)))
缩放因子 β 常作为一个超参数引入,以控制奖励的量级,这会显著影响RL训练的动态。此表述强调与中性分数(通常为零)的偏离。
奖励函数设计的实际考量
仅仅提取分数往往不足以实现稳定有效的RL训练。会涉及一些实际要考虑的方面:
-
奖励缩放与归一化: 原始分数 sθ(x,y) 可能具有任意尺度或偏移。大的奖励值可能导致过大的策略更新以及PPO等算法的不稳定。反之,极小的奖励可能导致学习缓慢。常用技术包括:
- 白化处理: 将每个批次的奖励归一化为零均值和单位方差。这有助于稳定PPO更新,通过确保奖励尺度在不同批次和提示之间保持一致。
- 裁剪: 将奖励值限制在预设范围,以防止极端更新。
- 缩放因子 (β): 明确缩放奖励信号,如替代表述所示,可直接控制其相对于RL目标其他组成部分(例如KL散度惩罚)的作用。
-
KL散度惩罚: 为防止RL策略 πRL 过度偏离原始监督微调 (SFT) 策略 πSFT(或CAI监督阶段后训练的策略),PPO通常会纳入KL散度惩罚。PPO更新中使用的最终奖励信号通常形式为:
rfinal(x,y)=r(x,y)−βKLKL(πRL(⋅∣x)∣∣πSFT(⋅∣x))
这里,r(x,y) 是源自AI偏好模型的奖励,βKL 控制偏离参考策略的惩罚强度。构建奖励函数 r(x,y) 必须考虑其与此KL项的关系。 r(x,y) 相对于KL惩罚的尺度是一个敏感的超参数。
-
奖励模型漂移: 如果AI偏好模型本身在RL训练过程中被更新或改变(较不常见,但在高级配置中可能发生),奖励函数会变得非平稳。这会使RL收敛变得复杂并需要谨慎处理。
-
偏见放大: AI偏好模型可能继承甚至放大用于生成标签的模型中存在的偏见(例如,基于宪法的评价器或其他LLM)。形成的奖励函数将包含这些偏见。需留意的是,奖励函数优化的是AI所认为好的东西,这可能与预期的宪法原则或更广泛的安全目标不完全一致。
将奖励整合到RL算法中
构建的奖励函数 r(x,y) 作为主要的信号,指引LLM策略 πRL 使用PPO(或其他适合的RL算法)进行优化。在PPO展开阶段,对于从数据集中抽样的每个提示 x,当前策略 πRL 生成一个回复 y。这个回复 y 随后输入到已冻结、已训练的AI偏好模型中,以计算奖励 r(x,y)。这个奖励,可能与KL惩罚结合,用于计算优势并更新策略参数。
流程图说明了RLAIF PPO循环中奖励信号的生成与使用。已冻结的AI偏好模型计算生成回复的分数,然后将其转化为用于策略更新的奖励信号。
从AI偏好构建有效的奖励函数是一个严谨的过程。它不仅需要知晓偏好概率与标量奖励之间的理论关系,还需要在缩放、归一化以及与所选RL算法目标函数的结合方面进行细致的实现,以确保稳定高效的策略优化。奖励函数的质量直接取决于上游AI偏好标注器的质量和一致性,以及基于其输出训练的偏好模型。