奖励模型 (RM) 通常基于 Bradley-Terry 框架进行训练,以有效学习回答对之间的相对偏好。然而,这些模型产生的原始输出分数 $RM(\text{提示}, \text{回答})$ 并非自动具有有意义的尺度。两个分数之间的差值,$RM(\text{提示}, \text{回答}_1) - RM(\text{提示}, \text{回答}_2)$,通过 Sigmoid 函数决定了预测概率 $P(\text{回答}_1 \succ \text{回答}_2)$。但是,分数差为 2 的偏好是否就比分数差为 1 的偏好“强”一倍呢?不一定。校准处理了这个问题。一个校准良好的奖励模型会生成分数,其中预测概率能够准确反映人类偏好数据中观察到的真实概率。如果模型预测 $\sigma(RM_1 - RM_2) = 0.8$,我们期望对于分数差大致如此的回答对,人类确实有大约 80% 的时间偏好回答 1。如果没有校准,奖励模型可能会系统性地过度自信(例如,实际偏好率为 70% 时却预测 0.9 的概率)或信心不足。评估奖励模型校准评估校准的一种常用方法是使用可靠性图(也称为校准图)。分箱: 将预测偏好概率范围(例如 [0, 1])或原始分数差值划分成若干个箱(例如 10 个箱)。计算平均值: 对于所有根据其预测概率 $\sigma(RM(y_w) - RM(y_l))$ 落入特定箱的偏好对 $(y_w, y_l)$:计算该箱内预测概率的平均值。计算 $y_w$ 确实被偏好的对的实际比例(如果使用 $(y_w, y_l)$ 对,根据定义这应始终为 1,但如果在原始分数差或独立测试集上进行评估,其中结果不由对的顺序确定,则此值有用)。更好的方法是计算箱内的平均准确度:根据偏好标签正确分类的对的比例。对于以概率 $p$ 为中心的箱,期望准确度为 $p$。绘图: 绘制每个箱的平均观测准确度(或正例比例)与平均预测概率的对照图。完美校准对应 $y=x$ 这条线。偏差表明校准不佳:线以下的点表示过度自信(预测概率 > 实际准确度),而线上的点表示信心不足。{"layout": {"xaxis": {"title": "每个箱的平均预测偏好概率", "range": [0, 1]}, "yaxis": {"title": "观测准确度(每个箱正确偏好的比例)", "range": [0, 1]}, "title": "奖励模型可靠性图示例", "shapes": [{"type": "line", "x0": 0, "y0": 0, "x1": 1, "y1": 1, "line": {"color": "#868e96", "width": 2, "dash": "dash"}, "name": "完美校准"}], "legend": {"yanchor": "bottom", "y": 0.01, "xanchor": "right", "x": 0.99}}, "data": [{"x": [0.1, 0.3, 0.5, 0.7, 0.9], "y": [0.15, 0.25, 0.45, 0.6, 0.75], "mode": "lines+markers", "type": "scatter", "name": "未校准的奖励模型", "marker": {"color": "#f03e3e"}}, {"x": [0.1, 0.3, 0.5, 0.7, 0.9], "y": [0.11, 0.31, 0.51, 0.69, 0.89], "mode": "lines+markers", "type": "scatter", "name": "已校准的奖励模型", "marker": {"color": "#4263eb"}}]}示例可靠性图,对比了未校准模型(在高概率处过度自信)和校准更佳的模型。从定量角度看,校准可以通过期望校准误差 (ECE) 等指标进行衡量,ECE 计算的是各个箱中预测概率与观测准确度之间的加权平均差值。提高校准的方法如果评估显示校准不良,可以采用以下几种方法:温度缩放: 这是一种简单且通常有效的后处理方法。它通过一个学习到的温度参数 $T > 0$ 对对数几率(即最终激活函数的输入,在此处为原始奖励模型分数或其差值)进行重缩放。校准后的概率计算如下: $$ P_{校准}(\text{回答}_1 \succ \text{回答}_2) = \sigma\left( \frac{RM(\text{提示}, \text{回答}_1) - RM(\text{提示}, \text{回答}_2)}{T} \right) $$ 温度 $T$ 在一个保留的偏好对验证集上进行优化。目标通常是在此验证集上最小化负对数似然 (NLL) 或 ECE 等校准指标。如果 $T > 1$,它会“冷却”对数几率,使概率变得平缓,并降低模型置信度(纠正过度自信)。如果 $T < 1$,它会“加热”对数几率,使概率变得尖锐,并增加置信度(纠正信心不足)。$T=1$ 则保持概率不变。 温度缩放仅调整预测的置信度,而不改变输出的排名 (argmax),这使其成为一种安全的调整方式。标签平滑: 在奖励模型的初始训练阶段应用,标签平滑将硬目标(0 或 1)替换为略微软化的目标(例如 0.05 和 0.95)。这会阻止模型产生极高置信度的预测(将对数几率推向正无穷或负无穷),并且可以隐式地改进校准。等渗回归: 另一种后处理方法,它拟合一个非递减函数,将模型的输出概率映射到校准后的概率。它比温度缩放更具效力,但需要更多数据,并且有时可能不太稳定。数据质量和多样性: 从根本上说,校准问题可能源于带噪声的标签、分数空间某些区域的数据不足,或训练数据分布与后续遇到的数据不匹配。改善人类偏好数据集的质量和多样性总是有益的。校准对强化学习微调的益处随后的强化学习阶段(通常使用 PPO)高度依赖奖励模型提供的奖励信号。奖励值 $r = RM(\text{提示}, \text{回答})$ 的大小或使用其计算的优势值直接影响策略更新的幅度。过度自信的奖励模型: 一个过度自信的奖励模型可能会为其略微偏好的回答分配过高的奖励,导致强化学习策略过于激进地优化某些回答类型,而这些类型可能只略微更好,这可能会牺牲多样性或减少探索。如果生成文本的微小变化导致奖励的大幅波动,这也会引起不稳定。信心不足的奖励模型: 一个信心不足的奖励模型可能会提供微弱的奖励信号,使得强化学习智能体难以有效区分好的和稍逊的回答,从而减缓学习速度或阻止策略达到最佳对齐。一个校准良好的奖励模型提供更可靠、可解释的奖励信号。两个可能回答之间奖励差值的幅度能更好反映人类偏好的实际强度,从而在强化学习微调阶段产生更稳定、有效的策略更新。尽管 PPO 通常涉及优势值归一化,但从校准模型中获得的奖励的相对尺度对于学习与人类判断一致的行为仍然有益。因此,在进入强化学习优化阶段之前,评估和改进奖励模型校准是一个重要环节。