趋近智
监督微调 (fine-tuning)(SFT)使模型能够遵循指令,但要使其与人类在助益性、诚实性和无害性等方面的更为复杂的价值取向对齐 (alignment),通常需要额外的步骤。本章介绍人类反馈强化学习 (reinforcement learning)(RLHF),这是一种借助人类对输出质量的评估来微调语言模型的方法。
我们将考察标准的RLHF流程,从收集成对偏好数据开始。您将学习训练一个奖励模型(),该模型能够预测人类可能更喜欢哪种模型生成的内容。在此之后,我们将详细说明如何在强化学习框架(通常是近端策略优化PPO)中,将此用作奖励信号,以调整SFT模型的表现。我们将阐释Kullback-Leibler()散度惩罚在稳定强化学习过程中的作用,并简要概述直接偏好优化(DPO)等其他方法。在本章末尾,您将理解用于大型语言模型对齐的RLHF流程的各个构成和具体实现方式。
26.1 RLHF 流程概述
26.2 收集人类偏好数据
26.3 训练奖励模型 (RM)
26.4 近端策略优化 (PPO) 介绍
26.5 RL PPO 微调
26.6 KL散度惩罚的作用
26.7 RLHF中的挑战与考量
26.8 替代方法:直接偏好优化 (DPO)