为了训练模型理解强化学习 (reinforcement learning)从AI反馈 (RLAIF) 中的AI判断,偏好模型是一个主要的组成部分。它的目标是学习一个函数,我们称之为 pθ,该函数评估给定输入提示 x 下,一个回复 yw (胜者) 优于另一个回复 yl (败者) 的概率,依据AI标注器使用的标准。用数学表示,我们希望模型化:
pθ(yw≻yl∣x)
这个偏好模型作为AI标注器判断过程的代表,使我们能够在强化学习阶段对任意回复进行评分。
偏好模型架构
一种常见且有效的方法是调整基础大型语言模型(LLM)架构本身,使其充当偏好模型。其运作方式通常如下:
- 输入: 模型将提示 x 与回复 y 拼接后作为输入。
- 处理: 这个组合输入序列通过Transformer架构进行处理。
- 评分头: 一个线性层(“评分头”)被添加到最终隐藏状态的一个或多个(通常只是对应于回复最后一个token的状态)之上。这个头部输出一个单一的标量值 sθ(x,y),表示给定提示下该特定回复的“偏好分数”。
参数 (parameter) θ 包含LLM的权重 (weight)(可能会进行微调 (fine-tuning))以及新添加的评分头的权重。直观上,LLM对语言的深刻理解使其能够把握住使一个回复优于另一个回复的细节差异。
另一种选择是,可以单独训练一个独立的、可能更小的模型专门用于偏好评分。这在训练和推理 (inference)期间可以节省计算资源,但与使用完整的LLM基础模型相比,可能会牺牲部分表示能力。这种选择通常取决于资源限制和偏好标准的复杂程度。
训练数据和格式
偏好模型以监督方式训练,但它不是直接从标签学习,而是从成对比较中学习。训练数据包含形如 (x,yw,yl) 的元组,其中:
- x 是输入提示。
- yw 是AI标注器认为“更好”或“胜出”的回复。
- yl 是AI标注器认为“更差”或“落败”的回复。
这些元组是使用下一节(“生成AI偏好标签”)中讨论的方法生成的。一个包含各种提示和回复类型、多样且高质量的数据集对于训练偏好模型非常重要。
布拉德利-特里模型和损失函数 (loss function)
为了训练模型参数 (parameter) θ,我们需要一种方法将标量分数 sθ(x,y) 与概率 pθ(yw≻yl∣x) 相关联。广泛采用的方法是依赖布拉德利-特里模型,该模型假设 yw 优于 yl 的概率可以根据它们潜在质量分数的差异来建模。具体来说,我们使用逻辑函数(Sigmoid)应用于我们模型生成的得分差异:
pθ(yw≻yl∣x)=σ(sθ(x,yw)−sθ(x,yl))
其中,σ(z)=1/(1+e−z) 是Sigmoid函数,它可以方便地将分数差异(范围从 −∞ 到 +∞)映射到0到1之间的概率。
训练目标是最大化在训练数据集 D 中观察到的偏好判断的似然。这等同于最小化这些偏好的负对数似然,通常称为成对偏好损失:
L(θ)=−E(x,yw,yl)∼D[logpθ(yw≻yl∣x)]
代入Sigmoid公式,损失变为:
L(θ)=−E(x,yw,yl)∼D[logσ(sθ(x,yw)−sθ(x,yl))]
这个损失函数促使模型对数据集中每个三元组中的胜出回复 yw 赋予比落败回复 yl 更高的分数 sθ。
偏好模型训练过程。对于每个数据点 (x,yw,yl),模型会计算两个回复的 sθ 分数。分数差异通过Sigmoid函数得到预测概率 pθ(yw≻yl∣x),该概率用于计算损失。
实现方面需要注意的事项
- 评分效率: 训练时,您会计算 sθ(x,yw) 和 sθ(x,yl)。这通常涉及对每个训练样本 (x,yw,yl) 进行两次通过底层Transformer模型的单独前向传播。一些实现通过将提示和两个回复打包成一个序列来优化此过程(如果可能),但这可能会使注意力掩码变得复杂。
- 优化器和学习率: AdamW等标准优化器被普遍使用。学习率通常较小(例如,微调 (fine-tuning)大型基础模型时在 10−6 到 10−5 范围),并且通常采用学习率调度,例如线性衰减。
- 初始化: 如果微调预训练 (pre-training)的LLM,评分头会随机初始化,而基础模型的权重 (weight)则保持其预训练值。基础模型权重可能最初被冻结,或者与头部一起进行微调。
- 梯度累积: 由于模型规模较大以及输入序列(提示 + 回复)可能较长,梯度累积常用于模拟比直接适应GPU内存更大的批次大小。
AI偏好建模中的困难
使用AI生成标签训练偏好模型会带来一些特殊困难,这与使用人类标签不同:
- 标签质量与噪声: AI标注器并非万无一失。它可能根据自身的局限性或用于引导的启发式方法产生有噪声、不一致或系统性偏差的偏好。偏好模型必须在这种噪声下学习到潜在的偏好信号。可能会采用数据集过滤(移除AI表达低置信度的对)或鲁棒损失函数 (loss function)等方法。
- 校准: 原始分数 sθ(x,y) 是基于差异训练的。它们的绝对值本身可能不是经过良好校准的概率或有意义的质量指标。尽管这通常足以进行排序,但转换为强化学习 (reinforcement learning)的奖励信号可能需要归一化 (normalization)或校准步骤以确保强化学习训练的稳定性。
- 泛化能力: 偏好模型需要有效地泛化到强化学习训练期间遇到的新提示和回复,这些提示和回复可能与其自身的训练集不同。泛化能力差可能导致不准确的奖励信号,阻碍强化学习智能体的学习。
- 计算资源: 将大型LLM微调 (fine-tuning)为偏好模型需要大量的计算资源(GPU、TPU、时间),这与其他LLM训练任务类似。
成功训练这个偏好模型是RLAIF流程中的重要一步。它学习到的评分函数 sθ(x,y),成为生成奖励信号的依据,该信号在随后的强化学习阶段引导LLM策略,我们接下来会探讨。