来自人类反馈的强化学习(RLHF)旨在使语言模型的行为与人类偏好对齐。此过程的一个主要步骤是训练一个独立的模型,即奖励模型(RM),记作$r_\phi(x, y)$。该模型的目标是学习一个函数,该函数接收提示$x$和生成的回复$y$作为输入,并输出一个标量值,表示人类可能偏好该回复的程度。本质上,奖励模型充当了人类判断的学习代理。奖励模型的作用在计算量大的LLM微调阶段(这会缓慢且不切实际)不直接使用人类反馈,我们首先将人类偏好提炼到奖励模型中。此奖励模型随后可以在后续的策略优化阶段(使用PPO等算法)提供密集的反馈信号,引导LLM $\pi_\theta(y|x)$生成根据所学偏好函数得分高的输出。奖励模型的数据收集训练奖励模型需要一个包含人类偏好的专门数据集。虽然可以要求人类给出绝对质量分数(例如,对回复进行1到10的评分),但这通常在不同标注员和提示之间存在不一致和校准不良的问题。一种更常见且通常更可靠的方法是收集比较数据。在这种设置中,对于给定的提示$x$,语言模型的一个或多个版本会生成多个回复($y_1, y_2, ..., y_k$)。然后要求人类标注员将这些回复从最好到最差进行排序,或者更简单地,从一对回复中选择单个最佳回复。这种比较过程产生的数据点通常以元组形式构成:$(x, y_w, y_l)$,即$y_w$是提示$x$的首选(“获胜”)回复,而$y_l$是较少偏好(“落败”)的回复。收集大量此类比较数据($D = {(x^{(i)}, y_w^{(i)}, y_l^{(i)})}$)构成了训练奖励模型的根基。digraph RM_Data_Collection { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", margin=0.2, color="#495057", fillcolor="#e9ecef", style="filled,rounded"]; edge [fontname="sans-serif", color="#495057"]; Prompt [label="提示 (x)"]; LLM [label="LLM(s)\n(例如,SFT模型)"]; Responses [label="{回复 A (y_A) | 回复 B (y_B) | ... | 回复 K (y_K)}", shape=record]; Human [label="人类标注员", shape=oval, style=filled, fillcolor="#a5d8ff"]; ComparisonData [label="偏好数据\n(x, y_w, y_l)", shape=note, style=filled, fillcolor="#b2f2bb"]; Prompt -> LLM; LLM -> Responses; Responses -> Human [label="排序/选择最佳"]; Human -> ComparisonData [label="记录偏好"]; }图示说明了用于奖励模型训练的人类偏好数据生成典型工作流程。奖励模型架构奖励模型的架构通常借鉴了正在微调的基础语言模型。一种常见做法是从LLM的预训练权重(或为提高效率而使用更小版本)开始,然后替换或添加一个最终的线性层。这个新层被训练用于输出一个单一的标量值(奖励分数),而不是预测下一个token的概率。从预训练的LLM初始化奖励模型是有利的,因为该模型已经对提示$x$和回复$y$中捕获的语言结构、语义和上下文有很好的理解。训练过程随后侧重于调整这种理解,以预测比较数据中表示的特定人类偏好信号。训练奖励模型核心理念是训练RM参数$\phi$,使得首选回复$y_w$对于相同的提示$x$始终比拒绝回复$y_l$获得更高的分数。这通常被视为分类或排序问题。一个广泛使用的目标函数是基于Bradley-Terry模型,该模型对$y_w$优于$y_l$的概率进行建模:$$ P(y_w \succ y_l | x) = \sigma(r_\phi(x, y_w) - r_\phi(x, y_l)) $$这里,$\sigma$是S型函数。训练目标是最大化数据集$D$中观察到的人类偏好的似然性。这等同于最小化负对数似然损失:$$ \mathcal{L}(\phi) = -\mathbb{E}{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( r\phi(x, y_w) - r_\phi(x, y_l) \right) \right] $$此损失函数鼓励奖励模型$r_\phi$在获胜和落败回复分数之间输出更大的差异。训练使用Adam等标准基于梯度的优化方法进行。训练考量与评估初始化:如前所述,从预训练模型初始化是标准做法。有时,从数据收集阶段使用的监督微调(SFT)模型初始化可以提供一个更好的起点。数据量和质量:RLHF过程的性能对偏好数据的质量和数量非常敏感。标注中的偏差、不一致的判断或数据不足可能导致校准不良或效率不高的奖励模型。校准:理想情况下,奖励分数差异$r_\phi(x, y_w) - r_\phi(x, y_l)$应与人类偏好的强度相关联。然而,标准训练目标并未明确强制执行这一点,可能导致奖励模型过于自信。评估:评估奖励模型的主要指标是其在独立偏好对集合上的准确率。也就是说,给定测试集中的一对$(x, y_w, y_l)$,模型是否正确预测了偏好,即$r_\phi(x, y_w) > r_\phi(x, y_l)$?高准确率表明奖励模型已成功捕捉人类偏好数据中的模式。定性分析以及与人类连续评分的相关性研究也可以提供关于奖励模型行为的洞察。一旦训练出足够准确的奖励模型,它就作为下一阶段的目标函数:使用强化学习微调语言模型的策略。