章节 2: 微调数据准备

微调 (fine-tuning)后的大型语言模型的表现，根本上取决于其在适应期间学习所用的数据。本章提供构建和格式化数据集的方法，这些数据集专为指令遵循和特定用途调整而设计。

您将了解指令微调背后的原理，以及获取、创建和组织有效指令数据集的实用方法。我们将介绍监督式微调 (SFT) 所需的特定格式，并研究为特定用途调整模型时特有的数据考量。此外，我们还将讨论处理数据有限或不平衡情况的策略，并介绍文本数据增强方法，以提升微调效果。目标是使您掌握准备高质量数据的技能，以有效引导大型语言模型实现预期的行为和能力。

课程章节

2.1 指令微调原则
2.2 指令数据集的获取与构建
2.3 监督微调（SFT）的数据格式化
2.4 域适应数据要求
2.5 数据稀缺与不平衡的处理
2.6 文本数据扩充技术
2.7 实践：准备指令微调数据集