趋近智
首页
博客
课程
大模型
中
所有课程
合成数据用于大语言模型预训练与微调
章节 1: 了解LLM中的合成数据
定义合成数据
现代LLM的数据需求
合成数据与真实数据来源的比较
合成数据生成方式概述
合成数据在预训练和微调中的作用
高实用性合成数据的特性
合成数据项目的初始设置
章节 2: 合成文本生成的核心技术
算法与规则驱动的文本生成
借助回译扩充数据
使用释义模型丰富文本
使用大型语言模型生成合成样本
通过高效的提示词设计引导生成
数据掩码和数据扰动技术
动手实践:使用大型语言模型API生成文本
章节 3: 应用合成数据于大型语言模型预训练
基础模型训练中的数据量与多样性
构建大规模合成语料库用于预训练
合成文本与数据的结合
定向预训练:使用合成生成内容
为预训练阶段生成指令式数据
衡量合成数据对预训练结果的影响
动手实践:构建一个合成预训练数据集片段
章节 4: 使用合成数据提升LLM微调效果
利用生成数据进行指令遵循微调
制作有效的合成指令-响应对
构建多样化微调数据集的方法
生成少样本和零样本学习场景的数据
针对不同微调框架的数据组织
通过人工生成数据塑造模型行为(风格、角色)
动手实践:创建用于特定任务微调的合成数据集
章节 5: 高级方法与数据优化
嵌入表示中的精细数据增强
结构化学习路径与合成数据
生成用于对齐方法的偏好数据
构建数据筛选与清洗管道
合成数据集的自动化质量保证
合成数据生成的迭代优化
动手实践:实现数据过滤脚本
章节 6: 评估合成数据并处理运行中遇到的问题
合成文本特性的定量分析
生成内容的定性评审方法
识别和减少人工数据集中的偏差
管理合成输出中的事实准确性
了解并应对模型性能下降
最大化数据独创性和多样性的方法
实践:合成数据验证清单
通过人工生成数据塑造模型行为(风格、角色)
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning