制作有效的合成指令-响应对

有效合成指令-响应对对指令微调 (fine-tuning) (IFT) 的成功开展非常重要。这些对是教授通用大型语言模型 (LLM) 理解并遵循特定指示、适应具体任务或展现预期行为的基础。当数据稀疏或未能涵盖所需指令的广度时，合成生成提供了一个有效的替代方案。制作这些对的方法和最佳实践将详细介绍，确保它们不仅数量多，而且质量高、多样性好，从而得到一个能力更强的微调模型。

指令-响应对的构成

最简单来说，一个指令-响应对由两部分组成：

指令： 这是你希望LLM执行的提示、问题或任务。它应清楚地说明所需的操作或信息。
响应： 这是LLM在接收到相应指令时应生成的理想输出。它在微调 (fine-tuning)过程中充当“正确答案”。

请看以下示例：

指令： "将以下Python字典转换为JSON字符串： {'name': 'Alex', 'age': 30, 'city': 'New York'}"
响应： {"name": "Alex", "age": 30, "city": "New York"}

这些对构成训练样本。LLM通过调整其内部参数 (parameter)来减少其生成响应与给定指令的目标响应之间的差异，从而进行学习。

人工生成对的策略

高质量指令-响应对的人工生成可以通过多种方式实现。方法的选择通常取决于所需指令的复杂性、种子数据的可用性以及可用工具的能力。

LLM驱动的生成（自指导和类似方法）

使用一个强大的现有LLM（常被称为“教师”或“生成器”模型）来创建新的指令-响应对是一种被广泛采用且有效的方法。“自指导”论文推广了一种特定的方法，但其通用原则可以进行调整。典型的工作流程是一个迭代循环：

种子指令： 从一组适度多样、人工制作的指令-响应对开始。这些初始示例为生成器LLM提供了起点和风格指导。
指令生成： 使用部分种子指令（或之前生成的高质量指令）提示教师LLM，以生成新的、多样的指令。提示应鼓励创造性，并可指定新指令的预期属性，例如任务类型（例如，头脑风暴、分类、摘要、编码）、复杂程度或主题范围。
响应生成： 对于每个新生成的指令，提示教师LLM（或者另一个针对响应质量进行微调 (fine-tuning)的LLM）生成高质量、准确的响应。
过滤与后处理： 这是重要步骤。自动过滤生成的对，去除低质量输出。这可能包括检查流畅性、指令-响应相关性、安全性以及独创性（例如，确保新对与现有对不过于相似）。在此处也可以加入人工审查部分对，以发现问题并优化过滤规则。
数据集扩充： 将经过验证的高质量新对添加到你不断增长的数据集中。这些也可以用来丰富用于后续迭代中生成更多指令的语料库。

生成指令-响应对的迭代工作流程。教师LLM使用种子指令生成新指令和相应的响应，这些内容在添加到最终数据集之前会进行质量过滤。

这种方法的成功很大程度上取决于教师LLM的能力以及提示和过滤阶段的严谨性。

基于模板的方法

对于指令遵循可预测模式的任务，基于模板的生成提供了一种更可控的方法。这包括：

定义带有占位符的指令模板。例如：“在 [情境] 背景下，[理念A] 和 [理念B] 的主要区别是什么？”
为每个占位符填充可能的数值列表（例如，[理念A] 可以是“TCP”，[理念B] 可以是“UDP”，[情境] 可以是“计算机网络”）。
通过程序化方式结合这些模板和数值，生成大量指令。

如果输出结构一致，基于模板指令的响应也可能是模板驱动的，或者可以由一个针对特定指令进行预热的LLM生成。尽管与纯LLM驱动的生成相比，此方法可能产生的指令多样性较少，但它提供了出色的控制力，并且对于某些应用来说效率很高。

扩充现有指令集

如果你已经拥有一个小型指令-响应对数据集，合成扩充可以使其扩大：

转述： 使用转述模型或提示LLM来重新措辞现有指令和/或响应。这有助于增加语言多样性，而不改变核心含义。例如，“告诉我伦敦的天气”可以转述为“伦敦目前的天气预报如何？”。
指令变体： 对指令进行微小修改，以创建新的相关示例。这可能涉及更改实体、添加限制或重新措辞问题。

确保生成对的质量和多样性

仅仅数量多的指令-响应对是不够的；质量和多样性对有效的微调 (fine-tuning)非常重要。应努力使对展现以下特点：

清晰性和准确性： 指令应明确无歧义，并清楚地传达任务。避免可能导致多种解释的模糊语言。
准确性和正确性： 响应必须事实准确、与指令直接相关且完整。对于解决问题的任务，解决方案步骤应逻辑合理。
多样性：
- 任务多样性： 包含涵盖广泛任务的指令，这些任务与你的微调目标相关（例如，问答、摘要、代码生成、创意写作、逻辑推理 (inference)）。
- 语言多样性： 在指令和响应中采用多样化的措辞、词汇和句子结构。
- 复杂度范围： 将简单直接的指令与可能需要多步推理或信息整合的更复杂指令结合起来。
指令的简洁性： 指令通常应直接明了，避免不必要的行话或冗长，除非任务明确要求理解复杂措辞。
响应的实用性和完整性： 响应应真正有用、信息丰富，并完全回应给定指令。
安全性和道德一致性： 重要的是，生成的对不得包含或推广有害、偏见或不道德的内容。实施严格过滤，并在必要时进行人工监督，以确保符合安全准则。

过滤和优化技巧：

长度限制： 过滤掉指令或响应过短或过长而不切实际的对。
关键词过滤： 筛查并删除包含不良或有问题关键词或短语的对。
流畅度评分： 使用语言模型（例如，通过计算困惑度）来评估生成文本的语言质量和连贯性。丢弃流畅性低的对。
语义相似度检查： 为了促进多样性，删除数据集中与现有对语义上过于相似的新生成对。可以采用基于嵌入 (embedding)的相似度或ROUGE等度量方法。
自定义启发式规则： 根据生成过程中观察到的错误模式或不良输出，制定具体规则。
人工审查： 强烈推荐纳入人工审查，至少对部分生成数据进行。这有助于识别自动化过滤器可能遗漏的微小问题，并为改进生成和过滤流程提供反馈。

有效生成的提示技巧

当使用LLM生成指令或响应时，你提供的提示是引导输出的主要工具。

显式元指令： 明确定义LLM的角色和预期输出。例如：
- 用于生成指令：“你是一个AI助手，负责为高中课程创建关于历史事件的各种具有挑战性的问题。每个问题都应要求描述性答案，而不仅仅是‘是/否’。”
- 用于生成响应：“根据用户的指令，提供全面、准确且易于理解的解释。以乐于助人的导师身份进行回复。”

少样本提示： 在你的提示中直接包含几个所需指令-响应格式的高质量示例。这种“情境学习”有助于LLM理解目标风格、复杂度和内容。

请按照以下示例的风格，生成一条新指令和相应的详细响应：

Instruction: "解释编程中的递归理念，并提供一个简单的Python示例。"
Response: "递归是一种编程技术，其中函数调用自身来解决同一问题的更小实例。它就像一套俄罗斯套娃，每个套娃里面都包含一个更小、相似的套娃。递归函数通常包含两部分：1. **基本情况：** 函数停止调用自身的条件，防止无限递归。2. **递归步骤：** 函数调用自身并修改输入的部分，使其更接近基本情况。这里是一个计算阶乘的Python示例： ```python\ndef factorial(n):\n  if n == 0: # 基本情况\n    return 1\n  else: # 递归步骤\n    return n * factorial(n-1)\n\nprint(factorial(5)) # 输出: 120\n``` 这个示例展示了 `factorial(5)` 如何调用 `factorial(4)`，后者又调用 `factorial(3)`，依此类推，直到 `factorial(0)` 返回1，然后结果沿着调用链逐级相乘。"

---
新指令和响应：

角色扮演： 指导LLM扮演特定角色（例如，“你是一名旅行社代理，提供行程建议”或“你是一名软件工程师，正在调试代码”）。这可以影响生成内容的语气、词汇和侧重点。
迭代提示工程 (prompt engineering)： 完美指令-响应对的生成很少能一次成功。从一个基础提示开始，并根据输出系统地进行优化。如果LLM生成偏离主题的内容，则添加更具体的限制。如果响应过于简洁，则要求更多细节。

应对常见挑战

虽然强大，但指令-响应对的合成生成伴随一些需要预见和处理的潜在问题：

同质性和缺乏新颖性： LLM有时会默认为常见模式，导致数据集多样性有限。通过多样的种子示例、要求新颖性的提示以及去重或相似性过滤来积极鼓励多样性。
事实不准确（幻觉 (hallucination)）： LLM可能会生成听起来合理但事实不准确的响应。对于准确性要求高的情境，应纳入验证步骤，可能使用外部知识库或人工事实核查，特别是针对知识密集型指令。
偏见传播与放大： 教师LLM或种子数据中存在的偏见可能会在合成数据集中复制甚至放大。使用偏见检测工具、多样化的种子数据和细致的提示设计来降低这些风险。考虑公平性过滤技术。
深度推理 (inference)困难： 生成需要深刻、多步推理或高度专业情境知识的指令和响应仍然具有挑战性，并且很大程度上取决于生成器LLM的复杂程度。
计算成本： 使用大型、先进的LLM进行生成可能会产生显著的计算成本。通过批量请求、优化提示长度以及尝试看更小的专业模型是否足以完成某些子任务（例如生成简单指令的响应）来优化你的生成过程。

人工合成有效的指令-响应对是一项迭代的工作，它将自动化生成技术与严格的质量控制和周密的提示工程 (prompt engineering)结合起来。通过关注清晰性、准确性、多样性和安全性，你可以构建出能显著提升LLM遵循指令和熟练执行特定任务能力的数据集。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Self-Instruct: Aligning LLMs with Self-Generated Instructions, Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi, 2022 ACL 2023 DOI: 10.48550/arXiv.2212.10560 - 提出了“Self-Instruct”方法，这是一种通过合成生成多样化指令-响应对来对齐大型语言模型的奠基性方法。
Scaling Instruction-Finetuned Transformers, Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei, 2022 arXiv preprint arXiv:2210.11416 DOI: 10.48550/arXiv.2210.11416 - 描述了FLAN指令微调方法，这是教授大型语言模型遵循指令的核心技术，本章节的合成数据生成正是为此服务。
Stanford Alpaca: An Instruction-Following LLaMA Model, Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, Tatsunori Hashimoto, 2023 arXiv preprint arXiv:2303.08774 DOI: 10.48550/arXiv.2303.08774 - 展示了一种生成高质量指令遵循数据的经济有效方法，该方法基于Self-Instruct并证明了其在实践中的应用价值。