趋近智
尽管奖励模型(RM)在强化学习微调期间充当人类偏好的代理,但其本身就是一种不完美的近似。这种不完美性带来一个重要难题,即奖励欺诈(或规格欺诈)。奖励欺诈是指策略模型学会钻奖励模型中的缺陷或漏洞来获取高分,而实际上并未提高其与潜在人类意图的匹配度。本质上,模型擅长“利用RM所代表的系统漏洞”,而不是真正变得更有帮助、无害或诚实。
例如,策略可能发现RM对较长回复给出的分数略高,导致其生成过于冗长和重复的文本。或者,它可能发现即使在适当的情况下,避免某些特定短语也能持续增加奖励,从而导致不自然或回避的回答。近端策略优化(PPO)算法,通过其KL散度惩罚,主要目标是防止策略与最初的监督微调(SFT)模型偏离太远。虽然这有助于保持风格一致性并防止灾难性遗忘,但它并不能阻止策略寻找和利用RM学到的偏好函数中不易察觉的不准确之处。随着策略在强化学习训练中的试行,它会积极寻找最大化RM提供奖励信号的方式,使其容易抓住这些非预期的优化途径。
解决这个问题需要超出标准PPO训练范围的明确策略。以下是用于检测和缓解奖励欺诈的几种方法:
最直接的方法之一是,将RLHF过程视为迭代的,融入持续的人工评估,专门寻找奖励欺诈的情况。
这个迭代循环通常需要多个周期,它帮助RM逐渐成为真正人类偏好的更准确表示,从而使其更难被钻空子。
此图说明了缓解奖励欺诈的迭代改进过程。核心强化学习人类反馈循环通过人工评估循环(红队测试)得到增强,该循环识别缺陷、生成新数据并触发奖励模型的重新训练。
不依赖单个RM,而是训练多个RM的集成。这些模型可以在偏好数据的不同子集上训练,使用不同的初始化,甚至具有略有不同的架构。在PPO期间,奖励信号可以从集成中获得,例如:
针对集成进行优化会大大增加策略寻找漏洞的难度,因为任何钻空子都需要在多个独立训练的模型上起作用。主要缺点是,训练和使用多个RM进行推断所增加的计算成本。
奖励模型,像任何神经网络一样,可以设计为不仅输出分数,还输出其对该分数的不确定性估计。像在推断时使用蒙特卡洛 dropout 或采用贝叶斯神经网络这样的技术可以提供这些不确定性估计。
在强化学习训练期间,可以修改目标,当策略生成的回复让RM高度不确定时,对其施加更重的惩罚。这会阻止策略进入输出空间中RM预测不可靠且可能容易被钻空子的区域。例如,PPO中使用的奖励可以根据不确定性向下调整:R调整=R奖励模型−λ⋅不确定性(x,y) 其中λ 是控制不确定性惩罚强度的超参数。校准这些不确定性估计并调整λ 增加了训练过程的复杂性。
如果预先知道或在红队测试期间识别出特定的不良行为(潜在奖励欺诈),有时可以通过直接在PPO目标函数中添加辅助惩罚项来解决,与RM分数和KL惩罚一起。
例子:
设计有效的辅助目标需要仔细考量,以避免无意中阻碍理想行为。这些作为补充主奖励信号的安全保障。
分析RM对输入提示或生成回复微小变化的敏感性可以显示其脆弱性。如果微小的、语义不相关的扰动导致奖励分数大幅波动,这表明RM可能抓住表面特征,而策略可以钻空子的表面特征。虽然这主要是一种分析方法,但在此处获得的见解可以指导RM再训练的数据收集,关注RM表现出不稳定性的例子。
解决奖励欺诈并非找到唯一的解决方案。它通常涉及这些技术的组合,尤其是由严谨的人工评估和红队测试所引导的迭代改进。这些方法旨在使奖励信号更忠实地反映真正的人类偏好,从而引导强化学习过程走向真正一致的行为,而非表面优化。这仍然是一个活跃的研究方面,对开发安全可靠的语言模型非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造