在上一章对合成数据的作用有了基础认识后,我们现在将转向“如何做”:即生成合成文本的具体方法。本章将对这些方法进行实际介绍。您将学会:实现基于算法和规则的文本生成系统。使用回译作为数据扩充的策略。应用释义模型,为您的文本数据集增加多样性。直接使用大型语言模型(LLM)生成新的数据样本,并侧重于有效的提示设计来控制输出。应用数据遮蔽和扰动技术,生成多样化且尊重隐私的数据。本章包含一个实践练习,您将使用LLM API生成文本,并将这些技术付诸实践。通过学习这些部分,您将构建一个工具包,用于生成适应不同LLM开发需求的合成文本。