趋近智
理解语言模型的策略(表示为 )在强化学习 (reinforcement learning)阶段如何演变,对于成功对齐 (alignment)很是有帮助。仅仅最大化奖励模型(RM)的奖励信号是不够的;我们需要确保这种优化过程能带来有益性、无害性和诚实性的真正改进,同时避免意想不到的后果。分析策略变化能提供关于训练动态的信息,有助于及早发现潜在问题,并验证对齐过程是有效的。
追踪策略变化的主要原因包括:
运用多种衡量指标和技术来分析这种变化:
Kullback-Leibler(KL)散度衡量当前RL策略()和参考策略(通常是初始SFT模型,)在给定相同提示时,预测的token概率分布之间的差异。在RLHF的PPO中,我们明确惩罚高KL散度,以防止策略偏离SFT模型太远。追踪在批次上平均的每token KL散度是一种常规做法。
一个图表显示了RL策略和SFT策略之间,随训练步数变化的每token平均KL散度。稳定训练通常表现出受控的增长,而快速、无限制的增长可能预示不稳定或过度偏离基础模型。
持续较低的KL散度可能表明策略没有学到太多,或者KL惩罚系数过高。反之,迅速增加的KL散度表明策略正在显著变化,如果奖励也在增加,这可能是好的,但如果奖励停滞或输出质量下降,则值得调查是否存在潜在的奖励作弊或能力丧失。
监测RM分配给策略生成内容的平均奖励分数是很重要的。我们预计该分数会随时间增加,因为策略会学习生成RM偏好的回复。绘制奖励分数分布也很有益。
直方图显示了在RL训练的不同阶段,RM分配给策略生成内容的奖励分数分布。分数向高位移动表明根据RM进行的优化是成功的。
分布收紧在高奖励值附近通常表示收敛。然而,如果分布显著变化或出现异常形状,可能表明策略正在利用RM的某些特定方面,可能暗示奖励作弊。
仅靠量化 (quantization)指标无法说明全部情况。在整个训练过程中,定期抽样并手动检查模型的输出(针对一组固定提示)是必不可少。比较以下生成内容:
寻找期望的改进(例如,有益性增加、更好的指令遵循能力、危害性降低),但也要警惕退步(例如,连贯性下降、重复、奉承、新故障模式的出现)。这种定性反馈循环对于理解策略如何变化非常重要。
结合分析这些衡量指标能提供更全面的情况:
标准的机器学习 (machine learning)实验追踪工具,如Weights & Biases或TensorBoard,对于记录和可视化这些衡量指标(KL散度、奖励分数、评估指标)随时间的变化非常有帮助。Hugging Face的TRL等库通常提供内置工具,用于在PPO训练期间计算和记录KL散度及奖励统计信息,从而简化分析过程。
通过结合使用量化 (quantization)指标和定性检查,系统地分析RL微调 (fine-tuning)期间策略如何变化,您可以确信RLHF过程正在实现有意义的对齐 (alignment),并在潜在问题导致训练脱轨或产生行为不佳的模型之前发现它们。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•