之前的章节讨论了RLHF的核心组成部分:监督微调 (SFT)、奖励模型 (RM) 训练,以及近端策略优化 (PPO) 微调。现在,我们着重于将这些阶段连接起来,形成一个连贯的系统。本章详细说明构建和运行完整的RLHF流程的实际操作。你将学会如何:安排工作流程,管理SFT、RM和PPO阶段之间的操作顺序和数据流动。处理所涉及的各种模型:加载基础模型、初始化SFT模型、使用奖励模型进行评分,以及在RL更新期间管理策略模型和价值模型。实现使用当前策略模型生成回复的过程,并使用训练好的奖励模型对这些回复进行评分,为PPO提供信号。考虑代码组织方式,以构建可维护的端到端RLHF系统。我们将审视数据如何在系统中流动,以及模型如何加载、使用和可能同步,最后将通过一个实践练习,运行完整循环的简化版本。