所有课程

合成数据用于大语言模型预训练与微调

章节 1: 了解LLM中的合成数据

定义合成数据

现代LLM的数据需求

合成数据与真实数据来源的比较

合成数据生成方式概述

合成数据在预训练和微调中的作用

高实用性合成数据的特性

合成数据项目的初始设置

第 1 章测验

章节 2: 合成文本生成的核心技术

算法与规则驱动的文本生成

借助回译扩充数据

使用释义模型丰富文本

使用大型语言模型生成合成样本

通过高效的提示词设计引导生成

数据掩码和数据扰动技术

动手实践：使用大型语言模型API生成文本

第 2 章测验

章节 3: 应用合成数据于大型语言模型预训练

基础模型训练中的数据量与多样性

构建大规模合成语料库用于预训练

合成文本与数据的结合

定向预训练：使用合成生成内容

为预训练阶段生成指令式数据

衡量合成数据对预训练结果的影响

动手实践：构建一个合成预训练数据集片段

第 3 章测验

章节 4: 使用合成数据提升LLM微调效果

利用生成数据进行指令遵循微调

制作有效的合成指令-响应对

构建多样化微调数据集的方法

生成少样本和零样本学习场景的数据

针对不同微调框架的数据组织

通过人工生成数据塑造模型行为（风格、角色）

动手实践：创建用于特定任务微调的合成数据集

第 4 章测验

章节 5: 高级方法与数据优化

嵌入表示中的精细数据增强

结构化学习路径与合成数据

生成用于对齐方法的偏好数据

构建数据筛选与清洗管道

合成数据集的自动化质量保证

合成数据生成的迭代优化

动手实践：实现数据过滤脚本

第 5 章测验

章节 6: 评估合成数据并处理运行中遇到的问题

合成文本特性的定量分析

生成内容的定性评审方法

识别和减少人工数据集中的偏差

管理合成输出中的事实准确性

了解并应对模型性能下降

最大化数据独创性和多样性的方法

实践：合成数据验证清单

第 6 章测验

构建大规模合成语料库用于预训练

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee, 2023 arXiv preprint arXiv:2309.05463 DOI: 10.48550/arXiv.2309.05463 - 提出了“教科书质量”数据的概念，结合了合成文本和精心筛选的网络数据，用于预训练具有强大推理和编码能力的小型语言模型。
Unsupervised Data Augmentation for Consistency Training, Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V. Le, 2020 Advances in Neural Information Processing Systems - 描述了反向翻译和基于TF-IDF的词语替换等数据增强技术，展示了它们在NLP半监督学习任务中的有效性，有助于增加数据多样性。
Deduplicating Training Data Makes Language Models Better, Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini, 2022 ACL 2022 DOI: 10.48550/arXiv.2107.06499 - 研究了数据去重对大型语言模型预训练的影响，表明删除近似重复项可以提高模型性能和训练效率。
On the Dangers of Implicit Bias in LLM-Generated Text, Andrea Lampis, Eugenio Lomurno, Matteo Matteucci, 2023 arXiv preprint arXiv:2305.10118 DOI: 10.48550/arXiv.2305.10118 - 研究了LLM中隐含偏见如何在生成文本中体现，并讨论了其影响，强调了在构建合成语料库时偏见缓解策略的重要性。

© 2025 ApX Machine Learning用心打造