趋近智
监督微调 (fine-tuning)(SFT)是对齐 (alignment)大型语言模型的基础技术。主要思路直接明了:向模型提供期望行为、正确回答、有益对话轮次、安全回应的例子(演示),并微调模型使其模仿这些例子。这种方法能有效提升模型遵循指令和遵守基本行为准则的能力。
然而,单独依靠SFT来实现复杂对齐很快会遇到重大阻碍,尤其当我们追求复杂的AI行为时。这些局限性促使开发出更先进的对齐方法,例如宪法AI(CAI)和基于AI反馈的强化学习 (reinforcement learning)(RLAIF)。
为对齐 (alignment)创建高质量SFT数据是劳动密集且成本高昂的。这需要人工标注者(或高度可靠的自动化系统,对于细致的对齐常常不存在)在广泛的潜在输入范围内生成理想回应。
考虑随着对齐目标变得更精细而不断增加所需的工作量:
随着对齐目标需要更多判断和覆盖复杂情境,工作量明显增加。
SFT主要教模型模仿所提供例子的表面形式。它擅长学习训练数据中存在的风格模式或特定输入-输出映射。然而,它常常难以灌输这些例子背后的潜在原则或意图。
对齐 (alignment)常常涉及处理歧义和进行依赖情境的权衡。例如,一个请求可能有害,取决于用户意图或后续影响;或者完全诚实可能与提供帮助或简洁冲突。
SFT基于静态输入-输出对,不适合教模型如何权衡相互冲突的价值或动态解释模糊情境。单个演示通常代表潜在权衡的一种特定解决方案,在未见情境中如何处理不同平衡方面提供有限指导。模型学习的是固定回应,而非灵活决策过程。
人类演示者在制作理想回应时,依赖大量隐性知识、常识和伦理理解。这种潜在原理很少在演示文本本身中被充分阐明。SFT允许模型模仿输出,但不能直接传递这种隐性推理 (inference)根基。
这种鸿沟导致脆弱性。模型可能正确处理与其训练数据相似的提示,但在略微不同的输入上意外失败,因为它缺乏支撑原始人类回应的更深理解。它尚未学到“是什么”背后的“为什么”。
或许最重要的实际局限之一是所得模型的脆弱性。主要通过SFT对齐 (alignment)的模型,常常仍然容易受到对抗性攻击或“越狱”提示的影响。这些是仔细设计的输入,以规避学到的安全性或帮助性模式。由于模型学到的是表面关联而非原则,超出SFT数据分布的输入可以容易触发不良行为。实现韧性不仅仅需要模仿例子;它需要对齐原则更深的整合,而仅SFT难以提供这一点。
尽管SFT仍然是大型语言模型训练工具包中的重要组成部分,尤其对于初始指令调优和基本行为塑造,但在目标是全面可靠对齐时,其局限性变得明显。与数据可扩展性、原则推广、处理歧义、传递隐性知识以及确保鲁棒性相关的挑战,推动了对超越简单模仿的方法的需求,例如涉及明确原则(CAI)或基于偏好学习(RLHF/RLAIF)的方法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•