趋近智
监督微调(SFT)提供了基线,但实现对齐需要更直接的方法来纳入人类对响应质量的判断。本章将重心转向构建奖励模型(RM),这是一个重要部分,它学习预测人类偏好哪些AI生成的响应。
您将学习创建这个RM的流程,从直接从成对比较中学习的思路开始。我们将介绍收集人类偏好数据的方法、组织这些数据集的方式以及选择合适的模型架构。本章详细介绍常见的训练目标,例如基于Bradley-Terry模型的那些,其公式如下:
P(response1≻response2∣prompt)=σ(RM(prompt,response1)−RM(prompt,response2))
σ代表sigmoid函数,≻表示偏好。
此外,我们将研究校准奖励模型分数以更好地反映偏好强度的方法,并讨论奖励建模过程中可能遇到的问题,包括数据质量问题以及模型发现意外捷径(奖励欺骗)的风险。在本章结束时,您将明白如何训练一个能量化人类偏好的模型,为强化学习优化做好准备。
3.1 偏好学习的思路
3.2 人类偏好数据收集
3.3 偏好数据集的格式与结构
3.4 奖励模型架构
3.5 奖励模型训练目标
3.6 奖励模型校准
3.7 奖励模型中可能出现的问题
3.8 动手实践:训练奖励模型
© 2026 ApX Machine Learning用心打造