趋近智
监督微调 (fine-tuning) (SFT) 通常是使预训练 (pre-training)的大型语言模型 (LLM) 达到预期行为的第一步。通过在高质量的提示-响应对(示范)数据集上训练模型,SFT 教会模型遵循指令、采用特定风格或执行示例中所示的任务。它对于传授基础能力以及使模型与可以清晰展示“正确”输出的明确、定义清晰的任务保持一致非常有效。
然而,仅依靠 SFT 来实现与人类意图和价值观的全面匹配会遇到显著的局限。这些不足是采用人类反馈强化学习 (reinforcement learning) (RLHF) 的主要原因。
创建一个涵盖人类期望的广泛范围和细致程度的高质量 SFT 数据集,是一项巨大的挑战。考虑潜在用户提示的庞大空间以及回复中所需的细微差别:
将 SFT 视为通过示例教授语法和词汇规则。虽然必不可少,但它不会自动教会一个人如何在新的情境中撰写有见地的分析、引人入胜的叙述或符合道德的论证。这需要一种不同类型的学习信号。
对于许多对齐 (alignment)目标而言,为 SFT 指定一个单一、完美的“黄金标准”响应,即使不是不可能,也很困难:
例如,要求 LLM“向一个 5 岁的孩子解释深度学习 (deep learning)”可能会产生几个合理、有创意但不同的响应。SFT 通常会将模型训练为一个特定示例,而基于偏好的方法则可以学习使任何此类解释变得好的特质(简洁性、类比使用、准确性)。
SFT 中使用的数据信号与 RLHF 中心的偏好数据比较。SFT 依赖于绝对示例,而 RLHF 从相对比较中学习。
“行为无害”、“诚实”或“避免生成错误信息”等对齐 (alignment)目标,众所周知仅通过 SFT 示范难以全面指定。
在特定数据集上进行密集 SFT 可能会导致模型对这些示范中包含的风格、语气和特定知识产生过拟合。
这些局限性表明,虽然 SFT 是基础适应的宝贵工具,但它不足以实现高级 LLM 与人类开放式交互所需的深刻、可靠和可泛化的对齐 (alignment)。引入更广泛、更具可扩展性的人类偏好信号的需求,促使转向 RLHF 等方法,这些方法借助比较反馈来指导模型趋向更理想的行为。接下来的章节将详细介绍如何在一个强化学习 (reinforcement learning)框架内收集、建模和使用这种偏好信号。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•