趋近智
来自人类反馈的强化学习(RLHF)旨在使语言模型的行为与人类偏好对齐。此过程的一个主要步骤是训练一个独立的模型,即奖励模型(RM),记作rϕ(x,y)。该模型的目标是学习一个函数,该函数接收提示x和生成的回复y作为输入,并输出一个标量值,表示人类可能偏好该回复的程度。本质上,奖励模型充当了人类判断的学习代理。
在计算量大的LLM微调阶段(这会缓慢且不切实际)不直接使用人类反馈,我们首先将人类偏好提炼到奖励模型中。此奖励模型随后可以在后续的策略优化阶段(使用PPO等算法)提供密集的反馈信号,引导LLM πθ(y∣x)生成根据所学偏好函数得分高的输出。
训练奖励模型需要一个包含人类偏好的专门数据集。虽然可以要求人类给出绝对质量分数(例如,对回复进行1到10的评分),但这通常在不同标注员和提示之间存在不一致和校准不良的问题。
一种更常见且通常更可靠的方法是收集比较数据。在这种设置中,对于给定的提示x,语言模型的一个或多个版本会生成多个回复(y1,y2,...,yk)。然后要求人类标注员将这些回复从最好到最差进行排序,或者更简单地,从一对回复中选择单个最佳回复。
这种比较过程产生的数据点通常以元组形式构成:(x,yw,yl),即yw是提示x的首选(“获胜”)回复,而yl是较少偏好(“落败”)的回复。收集大量此类比较数据(D={(x(i),yw(i),yl(i))})构成了训练奖励模型的根基。
图示说明了用于奖励模型训练的人类偏好数据生成典型工作流程。
奖励模型的架构通常借鉴了正在微调的基础语言模型。一种常见做法是从LLM的预训练权重(或为提高效率而使用更小版本)开始,然后替换或添加一个最终的线性层。这个新层被训练用于输出一个单一的标量值(奖励分数),而不是预测下一个token的概率。
从预训练的LLM初始化奖励模型是有利的,因为该模型已经对提示x和回复y中捕获的语言结构、语义和上下文有很好的理解。训练过程随后侧重于调整这种理解,以预测比较数据中表示的特定人类偏好信号。
核心理念是训练RM参数ϕ,使得首选回复yw对于相同的提示x始终比拒绝回复yl获得更高的分数。这通常被视为分类或排序问题。
一个广泛使用的目标函数是基于Bradley-Terry模型,该模型对yw优于yl的概率进行建模:
P(yw≻yl∣x)=σ(rϕ(x,yw)−rϕ(x,yl))这里,σ是S型函数。训练目标是最大化数据集D中观察到的人类偏好的似然性。这等同于最小化负对数似然损失:
L(ϕ)=−E(x,yw,yl)∼D[logσ(rϕ(x,yw)−rϕ(x,yl))]此损失函数鼓励奖励模型rϕ在获胜和落败回复分数之间输出更大的差异。训练使用Adam等标准基于梯度的优化方法进行。
一旦训练出足够准确的奖励模型,它就作为下一阶段的目标函数:使用强化学习微调语言模型的策略。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造