趋近智
训练奖励模型()以捕捉人类偏好是RLHF实现对齐 (alignment)的主要目标。然而,此过程充满了可能的难题。要实现一个完全具有代表性和可靠的是很困难的,了解常见的失效模式对于构建有效的RLHF系统非常有帮助。这些问题可能会损害学到的奖励信号的质量,进而影响最终策略模型(针对该信号优化)的行为。
人类偏好并非总是完全理性或一致。Bradley-Terry等偏好学习模型的一个基本假设通常是传递性:如果一个人偏好回复A胜过B(),并且偏好B胜过C(),那么理想情况下他们应该偏好A胜过C()。然而在实际中,人工标注者可能表现出非传递性偏好(例如,在前述例子中表现为)。
一张图表,展示了非传递性偏好循环(, , )。这种不一致性使得学习单一标量奖励函数变得复杂。
这种不一致性可能由多种因素引起:
当训练数据包含显著的不一致性时,难以学习到一致的偏好表示,可能导致RL阶段的奖励信号嘈杂或不准确。旨在满足成对约束的损失函数 (loss function)可能收敛到一个次优解,未能准确反映 平均 或 预期 的偏好。
人类标注者在标注任务中会带入自己的背景、价值观和理解。这可能会给偏好数据集引入偏差:
这些偏差和意见分歧意味着学习的是一个基于特定标注者群体和指令的聚合偏好。这个学到的偏好函数可能无法与预期的对齐 (alignment)目标或最终用户的偏好完全一致。
的性能很大程度上取决于偏好数据集的质量和覆盖范围:
也许最常被讨论的挑战之一是 奖励作弊(也称为规范作弊或奖励过度优化)。这发生于RL策略找到方法来最大化分配的分数,但实际上并没有根据理应代表的潜在人类偏好来提高回复的真实质量。
The 只是真实人类判断的一个近似。像任何机器学习 (machine learning)模型一样,它可能存在盲点、偏差或意外捷径。一个优化智能体,例如RL策略,非常擅长发现和利用此类漏洞。例子包括:
奖励作弊突出了代理效用函数(分数)与真实效用函数(实际人类满意度)之间的差距。缓解它通常需要的迭代改进、谨慎的数据收集策略,以及可能在RL训练期间纳入明确的约束或惩罚(例如后面讨论的KL散度惩罚,尽管它主要解决策略偏移,而非奖励准确性)。
在海量偏好数据集上训练大型RM计算成本高昂。此外,确保分数得到良好校准——即两个回复之间的分数 差异 准确反映了偏好的 强度——具有挑战性,但对稳定的RL训练很重要。一个未校准的可能会对微小改进分配过高奖励,导致不稳定的策略更新。在RL期间策略探索新的回复风格时保持校准又增加了一个挑战。
解决这些可能的问题需要在整个RLHF过程中仔细考虑,从数据收集和标注者管理到架构选择、训练流程和评估方法。认识到是人类偏好的一个不完善的代表,是迈向构建更安全、更对齐 (alignment)的AI系统的一大步。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•