鉴于对能够大规模运作的对齐技术的需求,本章介绍AI反馈强化学习 (RLAIF)。人类反馈强化学习 (RLHF) 依赖人工标注者创建偏好数据,而RLAIF则用AI生成的反馈来替代。这种方法旨在比单纯的人工标注更有效率地提供监督信号。本章审查RLAIF的运作方式。您将学到:RLAIF的主要思想以及它与标准RLHF流程的区别。生成AI偏好标签的策略,可能涉及使用指导性章程或其他已对齐的模型。如何训练一个偏好模型 $p_\theta(y_w \succ y_l | x)$,使其能够根据AI生成的标签,预测对于给定提示 $x$,两种响应 ($y_w$, $y_l$) 中的哪一个更好。将偏好模型的输出转换为适用于强化学习的标量奖励信号 $r(x, y)$ 的方法。应用强化学习算法(例如近端策略优化 (PPO))时,使用AI生成奖励信号的考虑因素。使用AI反馈时与训练稳定性和收敛相关的常见问题,以及缓解这些问题的方法。RLAIF做法的理论依据和已知局限性。