趋近智
来自人类反馈的强化学习 (reinforcement learning)(RLHF)旨在使语言模型的行为与人类偏好对齐 (alignment)。此过程的一个主要步骤是训练一个独立的模型,即奖励模型(RM),记作。该模型的目标是学习一个函数,该函数接收提示和生成的回复作为输入,并输出一个标量值,表示人类可能偏好该回复的程度。本质上,奖励模型充当了人类判断的学习代理。
在计算量大的LLM微调 (fine-tuning)阶段(这会缓慢且不切实际)不直接使用人类反馈,我们首先将人类偏好提炼到奖励模型中。此奖励模型随后可以在后续的策略优化阶段(使用PPO等算法)提供密集的反馈信号,引导LLM 生成根据所学偏好函数得分高的输出。
训练奖励模型需要一个包含人类偏好的专门数据集。虽然可以要求人类给出绝对质量分数(例如,对回复进行1到10的评分),但这通常在不同标注员和提示之间存在不一致和校准不良的问题。
一种更常见且通常更可靠的方法是收集比较数据。在这种设置中,对于给定的提示,语言模型的一个或多个版本会生成多个回复()。然后要求人类标注员将这些回复从最好到最差进行排序,或者更简单地,从一对回复中选择单个最佳回复。
这种比较过程产生的数据点通常以元组形式构成:,即是提示的首选(“获胜”)回复,而是较少偏好(“落败”)的回复。收集大量此类比较数据()构成了训练奖励模型的根基。
图示说明了用于奖励模型训练的人类偏好数据生成典型工作流程。
奖励模型的架构通常借鉴了正在微调 (fine-tuning)的基础语言模型。一种常见做法是从LLM的预训练 (pre-training)权重 (weight)(或为提高效率而使用更小版本)开始,然后替换或添加一个最终的线性层。这个新层被训练用于输出一个单一的标量值(奖励分数),而不是预测下一个token的概率。
从预训练的LLM初始化奖励模型是有利的,因为该模型已经对提示和回复中捕获的语言结构、语义和上下文 (context)有很好的理解。训练过程随后侧重于调整这种理解,以预测比较数据中表示的特定人类偏好信号。
核心理念是训练RM参数 (parameter),使得首选回复对于相同的提示始终比拒绝回复获得更高的分数。这通常被视为分类或排序问题。
一个广泛使用的目标函数是基于Bradley-Terry模型,该模型对优于的概率进行建模:
这里,是S型函数。训练目标是最大化数据集中观察到的人类偏好的似然性。这等同于最小化负对数似然损失:
此损失函数 (loss function)鼓励奖励模型在获胜和落败回复分数之间输出更大的差异。训练使用Adam等标准基于梯度的优化方法进行。
一旦训练出足够准确的奖励模型,它就作为下一阶段的目标函数:使用强化学习 (reinforcement learning)微调语言模型的策略。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•