趋近智
奖励模型 (RM) 通常基于 Bradley-Terry 框架进行训练,以有效学习回答对之间的相对偏好。然而,这些模型产生的原始输出分数 RM(提示,回答) 并非自动具有有意义的尺度。两个分数之间的差值,RM(提示,回答1)−RM(提示,回答2),通过 Sigmoid 函数决定了预测概率 P(回答1≻回答2)。但是,分数差为 2 的偏好是否就比分数差为 1 的偏好“强”一倍呢?不一定。
校准处理了这个问题。一个校准良好的奖励模型会生成分数,其中预测概率能够准确反映人类偏好数据中观察到的真实概率。如果模型预测 σ(RM1−RM2)=0.8,我们期望对于分数差大致如此的回答对,人类确实有大约 80% 的时间偏好回答 1。如果没有校准,奖励模型可能会系统性地过度自信(例如,实际偏好率为 70% 时却预测 0.9 的概率)或信心不足。
评估校准的一种常用方法是使用可靠性图(也称为校准图)。
完美校准对应 y=x 这条线。偏差表明校准不佳:线以下的点表示过度自信(预测概率 > 实际准确度),而线上的点表示信心不足。
示例可靠性图,对比了未校准模型(在高概率处过度自信)和校准更佳的模型。
从定量角度看,校准可以通过期望校准误差 (ECE) 等指标进行衡量,ECE 计算的是各个箱中预测概率与观测准确度之间的加权平均差值。
如果评估显示校准不良,可以采用以下几种方法:
温度缩放: 这是一种简单且通常有效的后处理方法。它通过一个学习到的温度参数 T>0 对对数几率(即最终激活函数的输入,在此处为原始奖励模型分数或其差值)进行重缩放。校准后的概率计算如下: P校准(回答1≻回答2)=σ(TRM(提示,回答1)−RM(提示,回答2)) 温度 T 在一个保留的偏好对验证集上进行优化。目标通常是在此验证集上最小化负对数似然 (NLL) 或 ECE 等校准指标。
标签平滑: 在奖励模型的初始训练阶段应用,标签平滑将硬目标(0 或 1)替换为略微软化的目标(例如 0.05 和 0.95)。这会阻止模型产生极高置信度的预测(将对数几率推向正无穷或负无穷),并且可以隐式地改进校准。
等渗回归: 另一种后处理方法,它拟合一个非递减函数,将模型的输出概率映射到校准后的概率。它比温度缩放更具效力,但需要更多数据,并且有时可能不太稳定。
数据质量和多样性: 从根本上说,校准问题可能源于带噪声的标签、分数空间某些区域的数据不足,或训练数据分布与后续遇到的数据不匹配。改善人类偏好数据集的质量和多样性总是有益的。
随后的强化学习阶段(通常使用 PPO)高度依赖奖励模型提供的奖励信号。奖励值 r=RM(提示,回答) 的大小或使用其计算的优势值直接影响策略更新的幅度。
一个校准良好的奖励模型提供更可靠、可解释的奖励信号。两个可能回答之间奖励差值的幅度能更好反映人类偏好的实际强度,从而在强化学习微调阶段产生更稳定、有效的策略更新。尽管 PPO 通常涉及优势值归一化,但从校准模型中获得的奖励的相对尺度对于学习与人类判断一致的行为仍然有益。因此,在进入强化学习优化阶段之前,评估和改进奖励模型校准是一个重要环节。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造