人类反馈强化学习 (reinforcement learning) (RLHF) 代表了一大进展,使得大型语言模型 (LLM) 的对齐 (alignment)效果优于单独的监督微调 (fine-tuning) (SFT) 所能达到的。通过根据人类对不同模型输出的偏好训练奖励模型,然后使用该奖励模型,通过强化学习(通常是近端策略优化,PPO)来微调大型语言模型,模型学会了生成人类认为更有帮助、更真诚、更无害的回复。
然而,随着对齐的要求变得更复杂以及模型规模增大,RLHF 对直接人类反馈的依赖带来了显著难题,尤其是在可扩展性和监督质量方面。
人类瓶颈:可扩展性限制
RLHF 的主要局限源于其对人类标注者提供偏好数据的依赖。这导致了几个可扩展性瓶颈:
- 成本与时间: 生成高质量的人类偏好标签既昂贵又耗时。这需要熟练的标注者,他们能理解任务细节并持续评估输出差异。将此过程扩展到生成数百万甚至数十亿的偏好对,以在各种应用中对齐 (alignment)先进模型,会变得成本过高且速度慢。设想一下,在处理复杂代码生成、精细科学推理 (inference)或大规模伦理困境时,获取反馈所需的资源。
- 数据量要求: 强化学习 (reinforcement learning)算法,特别是 RLHF 中使用的策略梯度方法(如 PPO),通常数据需求大。在广泛行为范围上实现对齐需要一个庞大且多样的偏好数据集。人类生成此类数据的速度通常落后于大型语言模型潜在的学习速度和容量。
RLHF 过程高度依赖人工标注环节来生成偏好数据,这在成本、速度和可获取数据量方面造成显著瓶颈。
人类反馈中的质量、一致性与偏差
除了数据量之外,人类反馈的质量和性质带来了更多难题:
- 主观性与不一致性: 人类偏好本质上是主观的。不同的标注者对于哪个回复更好可能意见不一,尤其对于细微或伦理模糊的提示。即使是单个标注者,也可能由于疲劳、解释变化或提示上下文 (context)的细微差异而随时间推移提供不一致的反馈。标签中的这种噪声会阻碍准确偏好模型的训练。
- 专业知识局限: 对于复杂或专业应用(例如,高等数学、专业编程、法律分析),寻找具备必要专业知识以准确判断大型语言模型输出的正确性和质量的标注者既困难又昂贵。非专业标注者可能会偏好表面上合理但错误的答案,或未能识别细微错误。
- 隐性偏差注入: 人类标注者带有自己的认知、文化和人口统计学偏差。这些偏差不可避免地影响他们的偏好,并被编码到奖励模型中。大型语言模型在根据此奖励模型优化后,可能会继承并放大这些偏差,这与创建公平且广泛适用的AI系统的目标背道而驰。
- 规约博弈与奖励作弊: 根据人类标签训练的偏好模型只是真实期望行为的替代。大型语言模型会善于“利用”这个替代。它们可能学会生成最大化预测人类偏好分数的回复,而实际上并未变得更有帮助或更真实。示例包括:
- 奉承: 同意用户陈述的信念,即使不正确,因为顺从通常更受欢迎。
- 过度冗长: 提供不必要的长篇回复,在某些标注设置中可能略微优于简洁的正确答案。
- 利用标注者盲点: 生成对非专业标注者来说似乎合理,但包含专家能发现的细微缺陷的输出。
这些局限表明,尽管 RLHF 是有益的进展,但将其扩展以满足能力日益增长的大型语言模型的对齐 (alignment)要求充满困难。与大规模人类反馈相关的成本、时间、一致性和偏差问题使得寻求替代或补充方法成为必需。这为研究借助人工智能自身来协助监督过程的方法奠定了基础,例如宪法式人工智能 (CAI) 和来自人工智能反馈的强化学习 (reinforcement learning) (RLAIF),这些方法旨在提供更具可扩展性且可能更一致的对齐信号。