所有课程

合成数据用于大语言模型预训练与微调

章节 1: 了解LLM中的合成数据

定义合成数据

现代LLM的数据需求

合成数据与真实数据来源的比较

合成数据生成方式概述

合成数据在预训练和微调中的作用

高实用性合成数据的特性

合成数据项目的初始设置

第 1 章测验

章节 2: 合成文本生成的核心技术

算法与规则驱动的文本生成

借助回译扩充数据

使用释义模型丰富文本

使用大型语言模型生成合成样本

通过高效的提示词设计引导生成

数据掩码和数据扰动技术

动手实践：使用大型语言模型API生成文本

第 2 章测验

章节 3: 应用合成数据于大型语言模型预训练

基础模型训练中的数据量与多样性

构建大规模合成语料库用于预训练

合成文本与数据的结合

定向预训练：使用合成生成内容

为预训练阶段生成指令式数据

衡量合成数据对预训练结果的影响

动手实践：构建一个合成预训练数据集片段

第 3 章测验

章节 4: 使用合成数据提升LLM微调效果

利用生成数据进行指令遵循微调

制作有效的合成指令-响应对

构建多样化微调数据集的方法

生成少样本和零样本学习场景的数据

针对不同微调框架的数据组织

通过人工生成数据塑造模型行为（风格、角色）

动手实践：创建用于特定任务微调的合成数据集

第 4 章测验

章节 5: 高级方法与数据优化

嵌入表示中的精细数据增强

结构化学习路径与合成数据

生成用于对齐方法的偏好数据

构建数据筛选与清洗管道

合成数据集的自动化质量保证

合成数据生成的迭代优化

动手实践：实现数据过滤脚本

第 5 章测验

章节 6: 评估合成数据并处理运行中遇到的问题

合成文本特性的定量分析

生成内容的定性评审方法

识别和减少人工数据集中的偏差

管理合成输出中的事实准确性

了解并应对模型性能下降

最大化数据独创性和多样性的方法

实践：合成数据验证清单

第 6 章测验

构建多样化微调数据集的方法

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Self-Instruct: Aligning Language Models with Self-Generated Instructions, Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi, 2022 ACL 2023 DOI: 10.48550/arXiv.2212.10560 - 介绍了使用大型语言模型生成多样化指令遵循数据的Self-Instruct方法。
A Survey of Large Language Models, Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, Ji-Rong Wen, 2023 arXiv preprint arXiv:2303.18223 DOI: https://doi.org/10.48550/arXiv.2303.18223 - 全面概述了大型语言模型，包括微调策略、数据创建和评估的讨论，为文中方法提供了更广泛的背景。

© 2026 ApX Machine Learning用心打造