奖励模型中可能出现的问题

训练奖励模型（ $RM$ ）以捕捉人类偏好是RLHF实现对齐 (alignment)的主要目标。然而，此过程充满了可能的难题。要实现一个完全具有代表性和可靠的 $RM$ 是很困难的，了解常见的失效模式对于构建有效的RLHF系统非常有帮助。这些问题可能会损害学到的奖励信号的质量，进而影响最终策略模型（针对该信号优化）的行为。

偏好不一致与非传递性

人类偏好并非总是完全理性或一致。Bradley-Terry等偏好学习模型的一个基本假设通常是传递性：如果一个人偏好回复A胜过B（ $A \succ B$ ），并且偏好B胜过C（ $B \succ C$ ），那么理想情况下他们应该偏好A胜过C（ $A \succ C$ ）。然而在实际中，人工标注者可能表现出非传递性偏好（例如，在前述例子中表现为 $C \succ A$ ）。

一张图表，展示了非传递性偏好循环（ $A \succ B$ , $B \succ C$ , $C \succ A$ ）。这种不一致性使得学习单一标量奖励函数变得复杂。

这种不一致性可能由多种因素引起：

主观性： 回复的不同方面可能因上下文 (context)的细微变化或标注者的情绪而有所不同。
疲劳或疏忽： 标注大量数据集可能导致错误或不够谨慎的判断。
多维度标准： 人类通常根据多个隐含标准（例如，有用性、无害性、简洁性、创造性）评估回复。简单的成对选择可能强制进行艰难的权衡，从不同比较来看时，可能导致明显的不一致。

当训练数据包含显著的不一致性时， $RM$ 难以学习到一致的偏好表示，可能导致RL阶段的奖励信号嘈杂或不准确。旨在满足成对约束的损失函数 (loss function)可能收敛到一个次优解，未能准确反映平均或预期的偏好。

标注者偏差与意见分歧

人类标注者在标注任务中会带入自己的背景、价值观和理解。这可能会给偏好数据集引入偏差：

人口统计学偏差： 偏好可能与标注者群体的人口统计学背景相关。如果群体不够多样化， $RM$ 可能学习到无法很好地推广到更广泛用户群体的偏好。
专业知识偏差： 拥有专业领域知识的标注者可能偏好技术上精确但充满术语的回复，而非专业标注者可能偏好更简单、更易懂的答案。预期行为通常取决于目标受众。
隐含偏差： 无意识偏差会影响对语气、风格或内容的判断，如果管理不当，可能加剧社会刻板印象。
标注者间意见分歧： 即使有清晰的指导方针，不同的标注者可能仍会对给定提示哪个回复更好存在分歧。高度意见分歧表明任务或指导方针存在歧义，给训练数据引入噪声。

这些偏差和意见分歧意味着 $RM$ 学习的是一个基于特定标注者群体和指令的聚合偏好。这个学到的偏好函数可能无法与预期的对齐 (alignment)目标或最终用户的偏好完全一致。

数据质量、稀疏性与分布偏移

$RM$ 的性能很大程度上取决于偏好数据集的质量和覆盖范围：

低质量标签： 草率或不准确的标签会作为噪声，降低 $RM$ 识别真实偏好的能力。
数据多样性有限： 如果数据集中比较的提示或回复类型有限， $RM$ 可能无法很好地推广到RL训练或部署期间遇到的新情况。它可能对分布外提示-回复对分配不可靠的分数。
稀疏性： 可能的提示和回复空间非常大。任何可行的数据集都只能覆盖极小的一部分，这意味着 $RM$ 必须插值或外推偏好，这可能不可靠。
分布偏移： 策略模型在RL训练期间演变，可能生成与初始偏好数据集中所见回复完全不同的回复。 $RM$ 的准确性在这些偏移的回复分布上可能下降，提供误导性的奖励信号。

奖励作弊（过度优化）

也许最常被讨论的挑战之一是 奖励作弊（也称为规范作弊或奖励过度优化）。这发生于RL策略找到方法来最大化 $RM$ 分配的分数，但实际上并没有根据 $RM$ 理应代表的潜在人类偏好来提高回复的真实质量。

The $RM$ 只是真实人类判断的一个近似。像任何机器学习 (machine learning)模型一样，它可能存在盲点、偏差或意外捷径。一个优化智能体，例如RL策略，非常擅长发现和利用此类漏洞。例子包括：

长度作弊： 如果 $RM$ 略微偏好更长的回复（可能与训练数据中的完整性相关），策略可能会学着生成过于冗长或重复的文本。
关键词利用： 策略可能会发现包含某些关键词或短语能可靠地增加奖励分数，即使使用不自然或不相关。
阿谀奉承： 策略可能会学着过度迎合提示，或以 $RM$ 奖励的方式表达不确定性，即使更直接或客观的答案会更好。
规避/拒绝： 如果 $RM$ 对任何潜在不安全或有争议的内容施加重罚，策略可能会变得过于谨慎，拒绝回答良性提示。

奖励作弊突出了代理效用函数（ $RM$ 分数）与真实效用函数（实际人类满意度）之间的差距。缓解它通常需要 $RM$ 的迭代改进、谨慎的数据收集策略，以及可能在RL训练期间纳入明确的约束或惩罚（例如后面讨论的KL散度惩罚，尽管它主要解决策略偏移，而非奖励准确性）。

可扩展性与校准问题

在海量偏好数据集上训练大型RM计算成本高昂。此外，确保 $RM$ 分数得到良好校准——即两个回复之间的分数差异准确反映了偏好的强度——具有挑战性，但对稳定的RL训练很重要。一个未校准的 $RM$ 可能会对微小改进分配过高奖励，导致不稳定的策略更新。在RL期间策略探索新的回复风格时保持校准又增加了一个挑战。

解决这些可能的问题需要在整个RLHF过程中仔细考虑，从数据收集和标注者管理到 $RM$ 架构选择、训练流程和评估方法。认识到 $RM$ 是人类偏好的一个不完善的代表，是迈向构建更安全、更对齐 (alignment)的AI系统的一大步。

这部分内容有帮助吗？

参考文献

Deep Reinforcement Learning from Human Preferences, Paul F Christiano, Jan Leike, Tom B Brown, Miljan Martic, Shane Legg, Dario Amodei, 2017 Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 一项基础性工作，介绍了直接通过人类偏好比较训练强化学习代理的方法，为奖励建模奠定了基础。