标准的人类反馈强化学习 (reinforcement learning) (RLHF) 通常针对从人类偏好得出的单一、统一的奖励信号来优化语言模型,但对齐 (alignment)工作常需平衡多个有时相互冲突的目标。一个理想的模型应是有用、无害且诚实的,但最大化其中一个目标可能会对其他目标产生负面影响。例如,若无限制地最大化有用性,在收到请求时可能会生成有害内容。多目标奖励模型 (MORMs) 提供了一个方法来处理这个难题,通过同时明确地建模和优化多个标准。
单目标奖励的局限性
基于整体偏好(例如,“哪个回应更好?”)训练单一奖励模型 (RM),会隐含地对影响该偏好的各种深层因素进行平均。这可能掩盖重要的权衡。标注者可能偏好回应 A,因为它稍微更有用,即使回应 B 明显更安全。单一奖励分数可能无法充分体现这种多方面评估,可能导致强化学习 (reinforcement learning)策略过度优化某个方面而牺牲其他方面。
定义和建立多目标模型
多目标方法的目标是学习多个奖励函数,每个函数对应一个具体的对齐 (alignment)标准,而非只学习单一奖励函数 R(prompt,response)。例如,我们可能定义:
- Rhelpful(p,y): 有用性奖励。
- Rharmless(p,y): 无害性奖励。
- Rhonest(p,y): 诚实性奖励。
这些目标通常来源于项目设计时确定的原则,例如 Anthropic 的宪法式 AI 工作中概述的那些(有用、无害、诚实 - HHH)。
实现此方法主要有两种途径:
- 独立奖励模型: 为每个目标训练独立的 RM 模型(如 RMhelpful,RMharmless 等)。每个模型都使用专门为该目标标注的偏好数据进行训练。这需要更精细的标注,人类可能需要分别在每个维度上对回应进行评分或比较。
- 多头奖励模型: 训练一个单一的神经网络 (neural network),它共享一个共同的基础(例如,处理提示和回应),但有多个输出“头”,每个目标一个。这种方法可以提高参数 (parameter)效率,并让模型可能学习与多个目标相关的共享表示。输出将是奖励向量 (vector):[Rhelpful,Rharmless,Rhonest]。
调整偏好数据收集方法
为多目标奖励模型收集数据,需要比单一目标成对比较更详细的标注过程。标注者可能会被要求:
- 对每个目标在量表上进行评分(例如,有用性评分为 1-5,无害性评分为 1-5)。
- 对每个目标进行特定的成对比较(例如,“哪个回应更无害?”)。
- 选择整体偏好的回应,但也要提供与特定目标相关的理由。
这些数据的丰富性和细致程度直接影响生成的多目标奖励信号的质量。
训练多目标奖励模型
如果使用独立模型,则每个模型都根据其特定的偏好数据子集,使用标准奖励模型训练技术(如 Bradley-Terry 模型)独立进行训练。
对于多头模型,训练过程需要处理多个输出。损失函数 (loss function)通常是每个目标头的单独损失项的总和或加权和。例如,如果对每个目标使用成对偏好损失 Lpref,总损失可能是:
Ltotal=whelpfulLpref,helpful+wharmlessLpref,harmless+whonestLpref,honest
这里,whelpful,wharmless,whonest 是权重 (weight),它们控制了在奖励模型训练期间拟合每个目标的相对重要性。这些权重是需要仔细调整的超参数 (parameter) (hyperparameter)。
将多目标奖励整合到强化学习 (reinforcement learning)微调 (fine-tuning)中
一旦获得每个目标的奖励值(无论是来自独立模型还是多头模型),需要将它们组合成一个单一的标量奖励信号,供强化学习算法(如 PPO)用来更新策略。最常见的方法是标量化 (quantization),通常通过加权和实现:
Rcombined(p,y)=whelpful′Rhelpful(p,y)+wharmless′Rharmless(p,y)+whonest′Rhonest(p,y)
在强化学习阶段使用的这些权重 (weight)(whelpful′,wharmless′,whonest′)是重要的超参数 (parameter) (hyperparameter)。它们直接控制策略在不同目标之间学习做出的权衡。例如,赋予 wharmless′ 一个很高的权重将强烈激励策略避免生成潜在有害内容,即使这可能导致对模糊查询的有用性降低。
这些权重可能在整个训练过程中保持不变,也可能动态调整。选择合适的权重通常是一个迭代过程,包括对模型行为的评估和分析。
RL 微调期间使用的标量化权重示例,此配置中,无害性的权重略高于有用性,诚实性权重较低。
挑战与考量
- 目标定义: 明确定义和衡量“无害性”或“诚实性”等目标本身就很困难,而且可能带有主观性。
- 数据成本: 收集细致的多目标偏好数据通常比收集简单的成对偏好数据更昂贵、更耗时。
- 权重 (weight)调整: 为奖励模型训练(如果采用多头模式)和强化学习 (reinforcement learning)标量化 (quantization)(w 和 w′) 找到合适的权重需要仔细实验和评估,因为不同的权重会导致不同的模型行为和权衡。
- 目标冲突: 目标本身可能存在冲突。例如,最大限度地诚实有时可能需要提供可能被滥用的信息(与无害性冲突)。标量化方法根据所选权重强制执行特定的权衡。存在更先进的多目标优化方法(例如,找到帕累托最优解),但由于复杂性,在当前大规模强化学习人类反馈中较不常见。
- 奖励作弊: 就像单目标奖励模型一样,多目标奖励模型也可能容易受到奖励作弊的影响,可能集中于所衡量的特定目标。
通过明确地建模多个对齐 (alignment)标准,多目标奖励模型提供了一种更可控的方式来应对使大型语言模型与人类价值观对齐所涉及的复杂权衡,从对“更好”的单一理解,转变为对理想模型行为更结构化的认识。