为了有效训练奖励模型 (RM),需要一个学习目标,使模型的输出与收集到的人类偏好数据保持一致。这些数据通常包含给定提示 x 的成对比较,表明对“获胜”响应 yw 的偏好超过“失败”响应 yl。目标是训练 RM 为 yw 分配比 yl 更高的标量分数。
标准做法是从概率选择模型(如Bradley-Terry模型)中获得启发。我们将给定提示 x 时人类偏好 yw 胜过 yl 的概率建模为奖励模型对每个响应评分之差的函数。具体来说,我们使用逻辑函数(S形函数,σ)将分数差映射为概率:
P(yw≻yl∣x)=σ(RMθ(x,yw)−RMθ(x,yl))
此处:
- RMθ(x,y) 是奖励模型(参数 (parameter)为 θ)在给定提示 x 的情况下,对响应 y 分配的标量分数。
- yw≻yl 表示响应 yw 比响应 yl 更受偏好。
- σ(z)=1+e−z1 是S形函数,它将其输入压缩到 (0, 1) 的范围,适合表示概率。
训练的目标是找到参数 θ,使观察到数据集中 D={(x(i),yw(i),yl(i))} 所表达偏好的可能性最大化。最大化可能性等同于最小化偏好的负对数可能性。对于单个偏好对 (x,yw,yl),负对数可能性损失为:
L(θ;x,yw,yl)=−logP(yw≻yl∣x)
代入概率表达式,我们得到:
L(θ;x,yw,yl)=−logσ(RMθ(x,yw)−RMθ(x,yl))
这通常被称为成对逻辑损失。为了训练模型,我们最小化整个偏好数据集 D 上的平均损失:
Ltotal(θ)=−∣D∣1(x,yw,yl)∈D∑logσ(RMθ(x,yw)−RMθ(x,yl))
使用基于梯度的优化方法(如Adam)最小化此损失函数 (loss function),会促使奖励模型为更受偏好的响应 yw 分配比次优响应 yl 更高的分数。 RMθ(x,yw)−RMθ(x,yl) 的差异越大,该特定对的损失越低,从而推动模型根据人类判断正确地对响应进行排序。
以下图表说明了训练期间单个偏好对的计算流程:
计算单个偏好样本 (x,yw,yl) 的成对逻辑损失的流程。奖励模型 RMθ 在给定提示的情况下,计算两个响应的标量分数。分数之差通过S形函数,此概率的负对数构成该样本的损失贡献。此损失随后用于通过反向传播 (backpropagation)更新模型参数 θ。
这种训练目标直接将成对的人类偏好转化为梯度信号,从而塑造奖励模型。经过良好训练并以此目标优化的奖励模型,为后续强化学习 (reinforcement learning)阶段提供了重要的奖励信号,引导语言模型生成更符合人类偏好的响应。