趋近智
监督微调 (fine-tuning)(SFT)是标准人类反馈强化学习 (reinforcement learning)(RLHF)工作流中奠定基础的第一步。预训练 (pre-training)的大语言模型(LLM)虽具备丰富的知识,但通常缺少对齐 (alignment)任务所需的具体指令遵循能力、期望的输出格式或对话风格。SFT通过使用精选的高质量提示-响应对数据集(常称为演示数据)来调整基础LLM,从而弥补了这一不足。
可以将SFT阶段看作是为模型提供在目标情境中如何表现的初始训练。此时并非学习偏好,而是学习游戏的基本规则 – 如何回应提示、使用何种格式,以及可能采纳特定角色(例如,一个乐于助人的助手)。
SFT的主要技术作用是生成一个初始策略,通常表示为,它作为后续强化学习(RL)阶段的起点。RL算法(在此情境中通常是近端策略优化PPO)并非从原始预训练 (pre-training)模型的参数 (parameter)开始优化,而是从SFT模型的参数开始。
这种初始化提供了重要的优势:
下图说明了SFT模型如何融入整个流程:
此流程图说明了RLHF的三个阶段。在阶段1生成的SFT模型()用于初始化RL策略(),并常作为阶段3中KL惩罚的参考策略。它也可用于为阶段2的人工比较数据收集生成初始响应。
除了初始化权重 (weight),SFT阶段还建立了一个行为基线。演示数据教导模型:
非常重要的一点是,SFT模型()通常也作为RL阶段PPO算法中使用的KL散度惩罚的参考策略。PPO目标函数包含一个像的项,其中是正在训练的策略。这个KL项惩罚RL策略在每一步都偏离初始SFT策略过远。
这为何重要?
尽管这不是SFT模型的主要作用,但它常用于后续奖励建模阶段的数据生成过程。为了收集人类偏好数据,提示会被输入到一个或多个模型(通常包括SFT模型本身)以生成多个候选响应。然后,人工标注者会比较这些响应(例如,选择一对中更好的一个)。因此,拥有一个有能力的SFT模型有助于创建训练有效奖励模型所需的、相关且多样化的候选响应。
总之,SFT阶段不只是一个初步步骤,它更是RLHF流程的一个基本组成部分。它使LLM适应目标范围,为高效的RL训练初始化策略,建立所需的行为格式和风格,并提供()作为参考点,这对通过KL散度约束进行稳定和有效的PPO优化来说非常必要。一个执行良好的SFT阶段能显著简化后续更复杂的奖励建模和强化学习 (reinforcement learning)阶段。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造