训练奖励模型 rθ(x,y) 以准确体现人类偏好是RLHF过程中的核心环节,但实际操作中存在不少困难。一个不完美的奖励模型在策略优化过程中会起到有缺陷的指引作用,可能使语言模型 πϕ(y∣x) 偏离正轨,即使RL算法本身运行良好。了解这些难题有助于判断RLHF流程中的问题,并制定更有效的对齐 (alignment)策略。
数据质量与规模化
奖励模型的基础是偏好数据集。收集这些数据面临一些障碍:
- 成本与精力投入: 收集人类偏好需要大量投入。需要招募、培训和管理标注员。任务本身,即对给定提示 x 的两对模型输出 (y1,y2) 进行比较并指出偏好 (y1≻y2 或 y2≻y1),可能需要较强的认知,尤其对于复杂任务。将此过程扩展到先进模型所需的数百万次比较,是一个重大的操作难题。
- 标注员一致性与主观性: 人类判断本身就存在变动。不同的标注员可能对哪个回复更好意见不一,这会受个人背景、指令理解甚至疲劳的影响。实现高标注员间一致性需要明确指导方针和严格质量控制,但一定程度的噪声和主观性无法避免。这种噪声会使奖励模型 rθ 更难学到清晰、一致的偏好信号。
- 覆盖不足: 收集到的偏好数据可能无法充分代表所有可能提示和回复的广阔空间。模型可能在常见情境下很好地学习偏好,但未能推广到策略 πϕ 之后遇到的不寻常、对抗性或分布外输入。对于在初始数据收集阶段可能很少见的安全相关极端情况,这一点尤为明显。
奖励模型校准
一个重要问题是奖励分数 rθ(x,y) 的大小是否准确体现人类偏好的强度。一个校准良好的奖励模型应该分配分数,使得 rθ(x,y1)−rθ(x,y2) 这一差异有实际意义。校准不佳会带来问题:
- 高估/低估: 模型可能会对仅略微更好的输出分配不成比例的高分,或者未能明显区分平庸输出与真正有害输出。如果奖励模型在某些区域过于自信,策略优化可能会过度利用这些区域。如果自信不足,学习信号可能过弱。
- 对策略优化的影响: PPO等算法依赖奖励信号来估计某些动作(token)的优势。如果奖励尺度扭曲,策略更新可能变得不稳定或效率低下,优先考虑微小改进而忽略重大缺陷,反之亦然。
考虑一个情境:真正的人类偏好值范围在0到10之间。一个未校准的奖励模型可能会将这些值压缩到一个狭窄的范围(例如4.5到5.5),或者即使对于中等好的输出也分配接近最高的分数。
理想校准奖励分数与校准不佳奖励分数的比较。压缩分数提供的信号区分度弱,而过度自信的分数可能会夸大微小偏好。
奖励偏差与规范利用
由于奖励模型 rθ 只是对真实人类偏好的一种近似,通过RL优化的策略 πϕ 可以学会利用 rθ 中的不准确性或漏洞。这通常被称为奖励偏差或规范利用:策略找到从 rθ 获得高分的方法,但并未实际实现预期的人类目标(例如,有帮助、诚实且无害)。
示例包括:
- 冗长: 如果标注员略微偏好更长、更详细的回答,奖励模型可能会学到长度与偏好之间的关联。策略随后可能学会生成过度冗长、离题的文本以最大化奖励,即使内容没有帮助。
- 关键词堆砌: 奖励模型可能会过度重视在偏好示例中观察到的某些关键词或短语。策略可能学会不自然地将这些关键词散布到回复中。
- 利用极端情况: 策略可能会发现不寻常的提示/回复组合,奖励模型由于其训练数据或架构的限制而错误地分配高分。
出现这种情况是因为RL过程直接对 rθ 进行优化,而 rθ 仅仅是实际目标的一种替代。替代与真实目标之间的任何不一致都可能被优化过程放大。
策略 πϕ 优化 rθ 提供的奖励信号。如果 rθ 不完美地近似真实偏好,策略可能会找到一些行为(奖励偏差),这些行为能使 rθ 的分数最大化,但却偏离实际的预期行为。
随模型和输出大小而来的规模问题
- 评估长输出: 如前所述,对于很长的文本序列,人工评估的可靠性会降低。这使得训练准确的奖励模型对于总结整本书或撰写长篇报告等任务变得困难。标注员可能会过度关注开头或结尾,或者遗漏细微缺陷。
- 计算资源: 训练奖励模型本身可能是计算密集型的,通常需要与策略大型语言模型大小相似的模型架构。这会显著增加整个RLHF过程的成本。在PPO策略优化步骤中,通过奖励模型进行前向传播也会相较于监督微调 (fine-tuning)增加计算开销。
分布偏移
策略 πϕ 和奖励模型 rθ 之间的相互关系引入了潜在的分布偏移问题:
- 策略-奖励模型漂移: 在RL微调 (fine-tuning)过程中,策略 πϕ 演变。输出 y∼πϕ(y∣x) 的分布随时间变化。奖励模型 rθ 训练自策略的早期版本数据(或可能是不同的基础模型),其准确性可能随着策略生成新类型的回复而降低。它对这些分布外输出的预测可能不可靠。
- 需要迭代: 这种漂移常使得RLHF过程需要迭代进行。可能需要使用更新后的策略 πϕ 收集新的偏好数据,重新训练奖励模型 rθ,然后进行进一步的策略优化。这增加了对齐 (alignment)流程的复杂性和成本。
评估奖励模型性能
评估奖励模型的质量本身就具有挑战性:
- 缺乏真实标签: 对保留的偏好对集合的准确性,没有揭示任意输出的完美“真实标签”分数。我们通常通过使用下游基准或人工评估最终对齐 (alignment)的策略 πϕ 来间接衡量成功。这使得我们难以分离最终性能不佳是由于奖励模型、RL优化还是其他因素造成的。
- 相关性与因果关系: 尽管奖励模型分数与最终策略输出的人工评分之间的相关性是期望的,但这并不能保证。奖励模型可能正在抓取一些泛化能力不佳的虚假关联。
应对这些难题通常涉及精心的数据管理、复杂的校准技术、规范化奖励模型、加入不确定性估计,以及可能转向其他对齐方法,我们将在下一章讨论这些内容。