趋近智
设计奖励函数涉及将成对的AI偏好(通常由像 这样的模型表示,该模型能够根据AI生成的标签识别受偏好的回复)转化为可用的标量奖励信号 。这个奖励函数是后续强化学习 (reinforcement learning)阶段的根本组成部分,它指引LLM策略生成与所学偏好一致的输出。
从RLHF继承的基本假设是,偏好模型 估算了一个潜在的奖励函数 。一个普遍的建模方式是布拉德利-特里模型,它假定在给定提示 的情况下,偏好回复 优于 的概率可以表示为:
这里, 是 Sigmoid 函数。在偏好模型训练期间,我们用AI生成的偏好数据 来拟合 ,实际上学习到成对回复之间奖励差异的估算值。
我们现在的目的是,基于已训练的偏好模型 ,提取一个标量奖励函数 ,以反映给定提示 时 单个 回复 的质量。由于 对奖励的差异进行建模,所提取奖励函数 的绝对尺度有些随意,但其相对值应反映 所学习到的偏好。
一种普遍定义奖励信号 的方法涉及利用已训练偏好模型 的内部计算。许多偏好模型架构会为每个输入回复 计算一个内部标量得分,我们称之为 。偏好概率随后根据胜出回复和落败回复之间分数的差异计算:
鉴于这种结构,奖励函数的一个自然选择是直接使用这个内部得分:
这个得分 表示根据AI偏好标注器学习到的回复 的质量。它直接获取了偏好模型训练期间优化的信息。
替代表述:
在一些实现中,奖励函数可以使用分数经过 Sigmoid 函数后再取对数的方式来定义:
缩放因子 常作为一个超参数 (parameter) (hyperparameter)引入,以控制奖励的量级,这会显著影响RL训练的动态。此表述强调与中性分数(通常为零)的偏离。
仅仅提取分数往往不足以实现稳定有效的RL训练。会涉及一些实际要考虑的方面:
奖励缩放与归一化 (normalization): 原始分数 可能具有任意尺度或偏移。大的奖励值可能导致过大的策略更新以及PPO等算法的不稳定。反之,极小的奖励可能导致学习缓慢。常用技术包括:
KL散度惩罚: 为防止RL策略 过度偏离原始监督微调 (fine-tuning) (SFT) 策略 (或CAI监督阶段后训练的策略),PPO通常会纳入KL散度惩罚。PPO更新中使用的最终奖励信号通常形式为:
这里, 是源自AI偏好模型的奖励, 控制偏离参考策略的惩罚强度。构建奖励函数 必须考虑其与此KL项的关系。 相对于KL惩罚的尺度是一个敏感的超参数 (parameter) (hyperparameter)。
奖励模型漂移: 如果AI偏好模型本身在RL训练过程中被更新或改变(较不常见,但在高级配置中可能发生),奖励函数会变得非平稳。这会使RL收敛变得复杂并需要谨慎处理。
偏见放大: AI偏好模型可能继承甚至放大用于生成标签的模型中存在的偏见(例如,基于宪法的评价器或其他LLM)。形成的奖励函数将包含这些偏见。需留意的是,奖励函数优化的是AI所认为好的东西,这可能与预期的宪法原则或更广泛的安全目标不完全一致。
构建的奖励函数 作为主要的信号,指引LLM策略 使用PPO(或其他适合的RL算法)进行优化。在PPO展开阶段,对于从数据集中抽样的每个提示 ,当前策略 生成一个回复 。这个回复 随后输入到已冻结、已训练的AI偏好模型中,以计算奖励 。这个奖励,可能与KL惩罚结合,用于计算优势并更新策略参数 (parameter)。
流程图说明了RLAIF PPO循环中奖励信号的生成与使用。已冻结的AI偏好模型计算生成回复的分数,然后将其转化为用于策略更新的奖励信号。
从AI偏好构建有效的奖励函数是一个严谨的过程。它不仅需要知晓偏好概率与标量奖励之间的理论关系,还需要在缩放、归一化 (normalization)以及与所选RL算法目标函数的结合方面进行细致的实现,以确保稳定高效的策略优化。奖励函数的质量直接取决于上游AI偏好标注器的质量和一致性,以及基于其输出训练的偏好模型。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•