趋近智
大型语言模型展现出出色的零样本学习(ZSL)和少样本学习(FSL)能力,分别使得它们能够在没有或只有极少示例的情况下完成任务。零样本学习依赖于模型理解任务描述并在没有预先特定训练实例的情况下执行任务的能力。少样本学习涉及在提示语中向模型提供少量演示(即“样本”),以引导其对新颖、类似输入的响应。合成数据的生成能够显著提升这些能力,特别是在针对新颖或专门任务的示例稀缺时。
对大型语言模型进行微调,使其成为更好的零样本或少样本学习器,通常需要一个数据集来教导它如何从指令中归纳或如何高效地运用示例。手动创建此类多样且高质量的数据集可能成本过高或难以实现。合成数据提供了一个可扩展的方案:
这里的目标是提升模型理解和执行其未明确训练过的任务指令的能力。
任务描述泛化与扩充: 从现有任务描述开始,或发明新的任务描述。使用一个强大的大型语言模型(一个“教师”模型)来重新措辞、抽象化或变化这些描述。例如,如果您希望模型擅长各种文本转换任务,您可以生成如下配对:
生成新颖指令和任务: 提示一个有能力的大型语言模型,以发明新的、合理可行的任务并为其提供指令。例如: “生成一个文本处理任务的指令,该任务涉及识别古老词语并建议现代同义词。提供一个示例输入和输出。” 此提示的输出成为一个合成训练实例。目的不一定是要模型精通这些特定任务,而是要学习如何有效处理任何新的、结构良好的指令。
对于少样本学习,合成数据生成过程侧重于创建有效的示例(样本),模型在推理时作为提示的一部分呈现时可以从中学习。在这种情况下,微调过程旨在使模型更擅长运用此类样本。
制作高质量的输入-输出演示: 少样本提示中的“样本”非常重要。您可以使用大型语言模型来生成这些。对于给定任务类型(例如情感分析、短篇故事生成、代码解释),提示一个教师大型语言模型创建几个不同的输入-输出配对,这些配对能很好地说明该任务。
一个大型语言模型根据种子任务描述生成合成示例(样本)。这些示例与新的输入一起,构成一个少样本提示,引导目标大型语言模型。
生成思维链(CoT)示例: 对于需要多步推理的任务,展示推理过程(思维链)的少样本示例非常有效。您可以通过提示大型语言模型来合成生成这些示例,让它解决问题并阐明其逐步思考过程。
扩充稀缺的真实示例: 如果您只有非常少量的少样本演示,可以使用合成数据技术,如释义或基于大型语言模型的重写,来创建变体。这会扩展您的演示集合,帮助模型从有限的真实数据中更好地归纳。确保扩充后的示例保留了原始示例的核心意图和正确性。
在微调大型语言模型以提升其零样本学习或少样本学习能力时,合成数据通常遵循指令-响应对的格式,通常采用JSONL格式:
用于零样本学习增强: 每个微调示例都是一个直接指令及其理想输出。
{"instruction": "将以下英文句子翻译成西班牙语:'Hello, how are you?'", "output": "Hola, ¿cómo estás?"}
{"instruction": "将此文档总结为三个要点:[长文档文本]", "output": "- 要点1\n- 要点2\n- 要点3"}
用于少样本学习增强: 微调数据本身旨在教导模型如何使用示例。“样本”是输入的一部分。
{
"instruction": "给定以下将主动语态转换为被动语态的示例:\n示例1 输入:The cat chased the mouse.\n示例1 输出:The mouse was chased by the cat.\n示例2 输入:The team celebrated their victory.\n示例2 输出:Their victory was celebrated by the team.\n\n现在,将此句转换为被动语态:The chef prepares delicious meals.",
"output": "美味的饭菜由厨师准备。"
}
在这里,合成生成过程创建指令(包括样本)和相应的输出。当给定此类语境学习提示时,模型经过微调以生成正确的输出。
通过深思熟虑地生成合成数据,您可以显著提升大型语言模型在极少或没有示例的情况下处理新任务的能力,使其成为一个更通用和强大的工具。当将模型应用于专业化范围或新颖应用,而大型标注数据集并不容易获得时,这一点尤为有益。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造