所有课程

合成数据用于大语言模型预训练与微调

章节 1: 了解LLM中的合成数据

定义合成数据

现代LLM的数据需求

合成数据与真实数据来源的比较

合成数据生成方式概述

合成数据在预训练和微调中的作用

高实用性合成数据的特性

合成数据项目的初始设置

第 1 章测验

章节 2: 合成文本生成的核心技术

算法与规则驱动的文本生成

借助回译扩充数据

使用释义模型丰富文本

使用大型语言模型生成合成样本

通过高效的提示词设计引导生成

数据掩码和数据扰动技术

动手实践：使用大型语言模型API生成文本

第 2 章测验

章节 3: 应用合成数据于大型语言模型预训练

基础模型训练中的数据量与多样性

构建大规模合成语料库用于预训练

合成文本与数据的结合

定向预训练：使用合成生成内容

为预训练阶段生成指令式数据

衡量合成数据对预训练结果的影响

动手实践：构建一个合成预训练数据集片段

第 3 章测验

章节 4: 使用合成数据提升LLM微调效果

利用生成数据进行指令遵循微调

制作有效的合成指令-响应对

构建多样化微调数据集的方法

生成少样本和零样本学习场景的数据

针对不同微调框架的数据组织

通过人工生成数据塑造模型行为（风格、角色）

动手实践：创建用于特定任务微调的合成数据集

第 4 章测验

章节 5: 高级方法与数据优化

嵌入表示中的精细数据增强

结构化学习路径与合成数据

生成用于对齐方法的偏好数据

构建数据筛选与清洗管道

合成数据集的自动化质量保证

合成数据生成的迭代优化

动手实践：实现数据过滤脚本

第 5 章测验

章节 6: 评估合成数据并处理运行中遇到的问题

合成文本特性的定量分析

生成内容的定性评审方法

识别和减少人工数据集中的偏差

管理合成输出中的事实准确性

了解并应对模型性能下降

最大化数据独创性和多样性的方法

实践：合成数据验证清单

第 6 章测验

现代LLM的数据需求

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Language Models are Few-Shot Learners, Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei, 2020 Advances in Neural Information Processing Systems, Vol. 33 (NeurIPS) DOI: 10.48550/arXiv.2005.14165 - 描述了GPT-3的架构和训练，详细说明了其训练数据集的规模和多样性，确立了大型语言模型对数据的需求。
Scaling Laws for Neural Language Models, Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, 2020 International Conference on Learning Representations (ICLR 2020) (OpenReview Foundation) DOI: 10.48550/arXiv.2001.08361 - 提出了语言模型扩展定律的基础研究，定量描述了性能如何随模型大小、数据集大小和计算资源的增加而提高，强调了数据的重要性。
Training Compute-Optimal Large Language Models, Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Aurelia Guy, Laurent Sifre, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Timothy Lillicrap, Ross Clark, Oriol Vinyals, Chris Dyer, Simon Lacoste-Julien, Geoffrey Hinton, 2022 International Conference on Learning Representations (ICLR 2022) (International Conference on Learning Representations (ICLR)) DOI: 10.48550/arXiv.2203.15556 - 提出了“Chinchilla”扩展定律，通过证明计算最优训练在给定模型大小下需要比以前认为的更多数据，从而完善了先前的研究成果。

© 2025 ApX Machine Learning用心打造