文本数据扩充技术

高质量数据的获取和格式化是根本，而微调 (fine-tuning)通常会受益于人工扩充训练集，尤其是在处理特定情境或指令类型的有限样本时。数据扩充技术从现有样本中生成新的训练实例，引入变体，帮助模型更好地泛化，并更能适应细微的输入变化。然而，将扩充应用于文本，特别是指令微调，需要仔细考量，以保持其原始含义和意图。

大型语言模型微调中，文本数据扩充的主要目的是增加训练数据的多样性，而不引入损害学习信号的噪音。我们希望模型学习其内在任务或风格，而不仅仅记住特定的输入输出对。有效的扩充会生成现有提示和回应的合理变体。

核心文本扩充策略

可以采用多种技术来扩充文本数据。每种方法的适用性取决于具体任务、数据的性质以及预期的结果。

同义词替换： 这涉及到识别非必要词（通常是名词、动词、形容词、副词，不包括停用词）并用同义词替换它们。WordNet 或从词嵌入 (embedding)（例如，在嵌入空间中查找最近邻）获得的词典等资源可以提供同义词。
- 机制： 选择句子 $S$ 中的一个词 $w$ 。找到其同义词 $w'$ 。用 $w'$ 替换 $w$ 以生成扩充后的句子 $S'$ 。重复此过程，控制替换词的数量。
- 考量： 这种方法计算成本低，但需要仔细实现。替换词语可能在细微处或大幅度地改变句子的含义或流畅性。使用上下文 (context)感知的词嵌入来查找同义词可以产生比简单的词典查找更好的结果。对于指令微调 (fine-tuning)，请确保核心指令保持不变。例如，将“summarize”（总结）替换为“outline”（概述）可能彻底改变任务。
回译： 回译是释义最有效的技术之一。文本被翻译成一种或多种中间语言，然后回译成原始语言。
- 机制： 原文（英文）-> 翻译成中间语言（例如，法文）-> 回译成英文。生成文本的结构和措辞通常不同，但核心含义得以保留。
- 考量： 需要访问翻译模型或API。质量严重依赖于翻译服务。计算成本更高，速度更慢。使用多种中间语言可以生成更多样化的释义。翻译错误可能引入噪音或改变含义，因此建议进行验证。
词元 (token)扰动： 这些方法在词元级别引入噪音。
- 随机插入： 在随机位置添加随机词语（通常是附近词的同义词或常用填充词）。
- 随机删除： 以一定概率删除随机位置的词语。
- 随机交换： 交换句子中两个随机词语的位置。
- 考量： 这些技术可以使模型更能容忍输入中的错别字或轻微语法错误。然而，它们必须谨慎使用（例如，只影响5-10%的词语），因为它们容易损害含义或语法结构，特别是对于指令数据，精确性很重要。删除否定词或交换核心术语可能颠倒指令的意图。
句子重排： 对于由多个句子组成的输入或输出，句子的顺序可以打乱。
- 机制： 给定一个包含 $N$ 个句子的文本块 $[s_1, s_2, ..., s_N]$ ，创建一个具有重排顺序 $[s_{p_1}, s_{p_2}, ..., s_{p_N}]$ 的新文本块。
- 考量： 这主要适用于句子的相对顺序不严格决定整体含义的情况，例如摘要中的要点列表或某些类型指令中的步骤。将其应用于叙述性文本或需要固定序列的逐步指令可能使数据变得无意义。
使用语言模型进行释义： 利用另一个语言模型（可能是更小、更专业化的模型，甚至是微调前的基础模型）来生成现有示例的释义。这涉及到提示模型重新措辞给定的句子或指令。
- 机制： 使用类似“请以三种不同方式重新措辞以下指令：[原始指令]”的提示。
- 考量： 可以产生高质量、流畅的释义。需要仔细的提示工程 (prompt engineering)以确保含义和意图得以保留。计算密集型。需要质量检查，因为释义模型可能引入错误、幻觉 (hallucination)或不良的风格变化。
基于模板的生成： 定义结构化模板，并用预定义列表或动态生成的值填充槽位。
- 机制： 模板：“生成 Python 代码以 {action} {data_structure} 中的数据。” 用 [“排序”, “筛选”, “规范化”] 填充 {action}，用 [“一个列表”, “一个 pandas DataFrame”, “一个 NumPy 数组”] 填充 {data_structure}。
- 考量： 对于生成结构化数据（如代码、命令或特定查询格式）非常有效。确保生成示例的一致性。对于创意或开放式文本生成任务的灵活性较低。需要投入精力设计好的模板和值列表。

示意图展示了如何将不同的扩充技术应用于指令-回应对。请注意，同义词替换和回译中含义在很大程度上得以保留，而基于模板的生成可能会根据模板设计调整核心请求。

进阶考量与最佳实践

应用扩充并非简单地运行脚本；它需要策略性思考：

保持意图： 最大的挑战，特别是对于指令微调 (fine-tuning)，是确保扩充后的指令仍然准确反映预期的任务，并且扩充后的回应仍然是正确且高质量的完成。过度扩充（例如，高比率的同义词替换或随机删除）容易违反这一点。
验证是必需的： 扩充数据理想情况下应进行验证。这可以是从人工抽查到自动化方法。例如，使用启发式方法（例如，检查句子长度、关键词存在）或甚至另一个模型（一个“判断”模型）来评估扩充对的质量和相关性。过滤掉低质量或无意义的示例。 "* 仅扩充训练数据： 切勿将扩充应用于您的验证集或测试集。这些集必须保持稳定并能代表您预期模型处理的数据分布，以便进行无偏评估。"
受控应用： 有选择地应用扩充。您可能只扩充部分数据，或根据数据特点应用特定技术。扩充程度（例如，替换词语的百分比、删除的概率）应作为超参数 (parameter) (hyperparameter)对待，可能根据验证性能进行调整。
组合技术： 组合使用多种方法（例如，回译后进行轻微同义词替换）有时可以产生比仅依赖单一技术更多样化的结果。

数据扩充是大型语言模型微调工具集中的有价值的工具，在处理用于特定任务或情境的有限数据集时特别有效。通过仔细生成现有数据的合理变体，您通常可以改进模型泛化能力、指令遵循能力和鲁棒性，从而得到更强大的微调模型。然而，成功取决于深思熟虑的应用和严格的验证，以确保扩充数据是增强而非削弱学习过程。

参考文献

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks, Nils Reimers, Iryna Gurevych, 2019 Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (Association for Computational Linguistics) DOI: 10.18653/v1/D19-1410 - 介绍了文本增强的核心方法，例如同义词替换、随机插入、随机删除和随机交换。
Self-Instruct: Aligning LLMs with Your Own Instruction Data, Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi, 2022 ACL 2023 DOI: 10.48550/arXiv.2212.10560 - 探讨了如何使用大型语言模型生成新的指令遵循数据，展示了一种与指令微调相关的基于LLM的数据增强方法。