趋近智
奖励模型(RMs)学习一个将提示-响应对映射为代表人类偏好的标量分数的函数。我们将审视大型语言模型(LLMs)中这些RMs的常用架构。
鉴于我们的任务涉及理解和评估LLM生成的文本,采用预训练LLM本身的能力作为RM的支撑是非常有效的。最常见且成功的方法是调整一个预训练的Transformer模型,通常是SFT阶段甚至最终策略模型所用的基础模型,来执行这个评分任务。
核心思路是取一个预训练的LLM(如GPT、Llama、Mistral等),并修改其最后一层。不同于预测下一个词元(如标准语言建模),我们在最终隐藏状态表示之上添加一个回归头,通常是一个简单的线性层。这个头被训练以输出一个标量值,RM(提示,响应),它表示在提示语境下给定响应的预测奖励或偏好分数。
为何采用LLM主干?
RM通常将拼接的提示和响应作为输入。例如,输入序列可能如下所示:[提示词元] [分隔符词元] [响应词元]。
LLM处理这个组合序列。回归头通常应用于与特定词元对应的隐藏状态,常是序列的最后一个词元(例如,</s>或[EOS]词元)。这个最终隐藏状态被认为编码了整个输入序列(提示和响应)的信息。线性层随后将这个高维隐藏状态向量映射到单个标量奖励值。
示意图展示了一种常见的奖励模型架构。提示和响应被拼接并输入LLM主干。线性回归头处理最终隐藏状态,生成一个代表预测偏好的单个标量分数。
架构选择涉及性能(RM如何良好地捕捉人类偏好)、计算成本(训练和推理时间/内存)以及RLHF整体流程复杂性之间的权衡。对于大多数应用而言,微调带有标量回归头的预训练LLM提供了一个强大且有效的起点。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造