结构化学习路径与合成数据

在我们对高级合成数据技术加深理解的基础上，我们现在关注训练数据的顺序和性质如何显著影响大型语言模型的学习过程。这涉及创建结构化学习路径，这种方法常被称为课程学习，其中合成数据在引导模型开发中发挥着重要作用。

大型语言模型的课程学习

课程学习借鉴了人类教育的理念，复杂的科目被分解并逐步教授，从基础组成部分开始，逐步引入更复杂的内容。对于大型语言模型而言，这意味着按照精心安排的顺序，通常从简单到更具挑战性的任务或主题来训练模型。

其主要思想是，通过首先掌握更简单的模式，模型可以建立一个基础的理解，从而有助于之后学习更复杂的模式。这可以带来以下几项好处：

更快的收敛速度: 模型可能更快达到预期的性能水平。
提升泛化能力: 精心设计的课程可以帮助模型学习表示方式，从而在未见过的数据上表现更佳。
提高在困难任务上的表现: 通过逐步应对复杂任务，模型可能比随机接触所有数据时达到更高的熟练度。

为何合成数据是构建课程的理想选择

“合成数据为制定这些学习课程提供了控制力。虽然现有数据是其原始形式，但合成数据生成技术允许我们：”

精准控制难度: 我们可以生成在难度维度上系统性变化的例子。例如，我们可以创建合成文本，从简短、简单的句子开始，逐渐增加长度、句法复杂性或所传达信息的抽象程度。
确保每个阶段的数据可用性: 对于某些任务，简单例子可能很多，但中等或高度复杂的例子可能稀缺。合成数据生成可以填补这些空白，确保课程的顺利进行。
针对特定技能: 课程可以设计成按顺序教授特定能力。例如，模型可能首先学习识别实体，然后是实体之间的关系，最后是回答需要基于这些关系的多步推理 (inference)的问题。合成数据可以定制，为这些不同阶段提供例子。
系统引入新内容: 新词汇、新思想或推理模式可以以受控方式引入，使模型在进入下一阶段前有效地吸收它们。

设计结构化学习路径

使用合成数据构建有效课程涉及几个步骤：

定义“难度”或“复杂性”: 这是一个重要方面，可以根据与大型语言模型任务相关的各种因素来定义：
- 文本属性: 输入/输出长度、词汇稀有度、句子结构复杂性（例如，从句数量、解析树深度）。
- 任务复杂性: 所需推理 (inference)步骤数量、干扰项的存在、歧义程度、对外部知识的需求。
- 指令复杂性: 对于指令微调 (fine-tuning)模型，提示的直接性、约束数量或所需输出格式的特异性。
- 知识体系层级: 对于特定领域的学习，在教授高级思想之前先引入基础思想。例如，在编程课程中，先教基本语法，再教复杂算法。
课程分阶段: 一旦难度指标确定，课程通常被划分为几个阶段。
- 初始阶段: 侧重于基础模式和简单任务，使用复杂度较低的合成数据。
- 中间阶段: 逐步引入更复杂的数据，如果可用且适当，可能会将合成数据与一些实际例子混合使用。
- 高级阶段: 用最复杂的合成（和真实）例子来挑战模型，目标是培养复杂的推理和生成能力。
为每个阶段生成合成数据:
- 模板和基于规则的系统: 对于较简单的阶段，可以使用模板生成具有受控结构的数据。
- 大型语言模型作为生成器: 使用一个有能力的大型语言模型（“教师”模型）为特定难度级别生成合成例子。例如，在早期阶段，你可以提示教师大型语言模型：“生成10个一步可解的简单数学应用题”；之后在高级阶段，则提示：“生成10个需要三个逻辑步骤并理解百分比的复杂数学应用题”。
- 扰动和增强: 从一个种子例子集（真实的或合成的）开始，应用日益复杂的扰动或增强来创建更难的变体。

以下图表说明了课程的一般流程：

课程阶段的进展，由日益复杂的合成数据驱动，旨在系统地构建大型语言模型的能力。

例子：学习算术推理 (inference)

考虑训练大型语言模型进行算术推理。合成数据课程可能如下所示：

阶段1：个位数加/减法。
- 合成例子：“2 + 3 等于多少？”，“如果你有5个苹果，吃掉1个，还剩多少？”
- 数据生成：简单模板。
阶段2：多位数加/减法，基本乘/除法。
- 合成例子：“计算 125 + 482。”，“7乘以6是多少？”
- 数据生成：问题和解决方案的算法生成。
阶段3：涉及一到两个运算的简单应用题。
- 合成例子：“一家面包店做了240块饼干。他们卖了150块。还剩多少？”
- 数据生成：基于模板或侧重于特定运算的提示，由大型语言模型生成问题。
阶段4：涉及多步、混合运算和无关信息的复杂应用题。
- 合成例子：“莎拉买了3本书，每本12美元，2支笔，每支3美元。如果她用一张50美元的钞票支付，并在之后还买了4美元的咖啡，她收到了多少零钱？”
- 数据生成：高级大型语言模型提示，可能使用如Self-Instruct或Evol-Instruct等技术生成多样化且具有挑战性的问题。

通过这样的课程进展，大型语言模型初始不会感到不知所措，并且可以在解决更具挑战性的问题之前，培养必要的中间推理技能（如识别数字、运算和排序步骤）。

实际考虑因素

尽管功能强大，但使用合成数据实施课程学习有其自身需要考虑的方面：

定义“简单”与“困难”: 这可能是主观的，并取决于任务。对人类而言简单的内容，对大型语言模型可能并非如此。通常需要实验来校准难度级别。
进度安排: 模型应在每个阶段训练多长时间？过快或过慢都可能不理想。一些自适应策略会根据模型在每个阶段验证集上的表现调整进度。
课程广度: 确保即使是“简单”阶段也足够多样化，以防止模型对狭窄模式过拟合 (overfitting)。课程应引导学习过程，而非过度限制。
阶段间的过渡: 平滑过渡是更可取的。难度骤升会阻碍学习。重叠的内容或相邻阶段数据的逐渐混合会有所帮助。
与真实数据结合: 对于后期阶段，或对高保真真实数据很重要的任务，课程可以设计成从纯合成数据过渡到合成数据与真实数据的混合，或最终主要使用真实数据。

评估课程的有效性通常涉及比较使用该课程训练的模型与使用相同数据但随机顺序训练的基线模型的学习速度（例如，达到目标困惑度或任务指标所需的训练轮次）和最终性能。

通过深思熟虑地利用合成数据构建学习路径，您可以更有效地引导大型语言模型的训练，从而可能得到能力更强、效率更高的模型。这种方法是合成数据在优化大型语言模型开发周期中发挥作用的又一种复杂方式。

参考文献

Curriculum Learning, Yoshua Bengio, Jérôme Louradour, Ronan Collobert, Jason Weston, 2009 Proceedings of the 26th Annual International Conference on Machine Learning - ICML '09 (ACM Press) DOI: 10.1145/1553374.1553405 - 介绍了课程学习的概念，展示了其在机器学习模型训练稳定性和泛化方面的有效性。
WizardLM: Empowering Large Language Models to Follow Complex Instructions, Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Qingwei Lin, Daxin Jiang, 2024 The Twelfth International Conference on Learning Representations (ICLR 2024) DOI: 10.48550/arXiv.2304.12244 - 详细介绍了Evol-Instruct，这是一种自动生成渐进式更复杂和多样化指令数据的方法，直接支持为LLM创建结构化学习路径。