大型语言模型的预训练阶段需要大量文本数据。当真实数据稀缺、不足或缺少特定属性时,合成数据为构建或补充预训练数据集提供了一个可行的选择。本章会研究合成数据专门应用于大型语言模型开发的这一重要阶段。您将学习如何:理解数据量 $V_{data}$ 与预训练效果之间的关联。构建适合预训练阶段使用的大规模合成语料库。实施将合成文本与现有真实数据结合的策略。使用合成生成的内容进行特定方向或目标明确的预训练。生成指令格式的数据以便纳入预训练中。评估合成数据如何影响预训练的结果。通过组建一个小型合成预训练数据集样本来获得实践经验。