趋近智
预训练大型语言模型(LLMs)从其初始训练阶段获得了大量的知识和语言能力。然而,这种通用知识并不能自动转化为精确遵循人类指令或按要求执行特定任务的能力。基础模型通常会延续其预训练数据中的模式(例如补全文本),而不是遵循用户的明确命令。指令微调解决了这一不足。
指令微调本质上是一种特定形式的监督微调(SFT)。指令微调不针对特定领域文本或缺少明确命令的任务示例进行微调,而是使用由 (指令, 响应) 对组成的数据集,有时还会包括可选的上下文。其目的是让模型学会理解并执行自然语言指令中指定的任务。
在预训练期间,大型语言模型学习预测序列中的下一个token,以优化语言建模目标。这构建了语言结构和知识的强大内部表示。指令微调重新利用了这种预测能力。通过在指令位于预期输出之前的示例上进行训练,模型学会了不仅根据前面的文本,更根据指令中表达的意图来调整其预测。它学会了指令遵循的元任务。
考虑其目标。在指令微调的标准监督微调(SFT)中,模型的参数()会被调整,以最大化在给定 指令 () 和任何提供的 上下文 () 的情况下生成目标 响应 () 的概率:
这通常通过最小化响应序列中token的负对数似然(交叉熵损失)来实现。模型学会了某些文本模式(指令)表明需要生成特定类型的输出(响应),而不是简单地延续输入文本流。
以下图表说明了该过程:
基础大型语言模型通过指令-响应对数据集进行微调,从而得到一个能够执行命令的指令微调模型。
理解这些原则对准备有效数据集来说非常重要。尽管基础大型语言模型拥有原始能力,但指令微调能塑造这些能力,将模型转变为一个更实用、更具交互性的工具。接下来的章节将详细说明如何获取、构建和格式化实现这一转变所需的数据。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造