趋近智
基于人类反馈的强化学习 (RLHF) 过程通常从监督微调 (SFT) 开始。这一初始步骤使一个通用预训练大型语言模型 (LLM) 适应,以更好地符合目标任务或应用场景,在强化学习阶段之前。SFT 使用一个包含高质量提示-响应示例的数据集,为模型提供对所需行为和输出格式的扎实基础认知。
本章侧重于SFT阶段。您将学习:
我们将通过一个实际练习来结束本章,演示如何在语言模型上进行 SFT。理解 SFT 对于构建一个高效的 RLHF 流程非常重要。
2.1 SFT在RLHF流程中的作用
2.2 高质量SFT数据集的整理
2.3 SFT 实现细节
2.4 评估 SFT 模型表现
2.5 动手实践:SFT 执行
© 2026 ApX Machine Learning用心打造