构建高质量指令数据集

监督微调 (fine-tuning)（SFT）完全取决于所用数据集的质量和构成。与预训练 (pre-training)不同，预训练的目标是在大量通常带有噪声的文本中进行普遍的模式识别，而SFT旨在教导模型特定的、合意的行为。因此，指令数据集充当了模型对齐 (alignment)个性和能力的蓝图。一个精心制作的SFT数据集决定了模型是仅仅能生成文本，还是能够可靠地遵循指令、进行有益对话并遵守安全限制。

主要思想很简单：为模型提供您希望它进行的互动示例。每个示例通常由一个“指令”（或提示、查询、上下文 (context)）和一个预期的“响应”（或输出、完成）组成。通过使用标准语言建模损失（预测下一个词元 (token)）来训练模型，使其根据指令预测预期响应，我们将引导其行为，以便未来生成类似的高质量响应。

高质量指令数据集的特点

构建一个有效的SFT数据集需要仔细考量几个因素：

指令多样性： 数据集应包含各种各样的任务和指令类型。这包括：
- 开放式生成： 创意写作提示、头脑风暴、续写任务。
- 封闭式任务： 问答（事实型、阅读理解）、摘要、信息提取、分类。
- 编程： 代码生成、解释、调试。
- 推理 (inference)： 数学问题、逻辑谜题、逐步思考。
- 对话： 多轮对话示例。
- 重写/编辑： 风格转换、语法修正、简化。
- 安全/拒绝： 模型应拒绝有害、不道德或不恰当请求的示例。
一个多样化的数据集可以防止模型对狭窄的任务集过拟合 (overfitting)，并促进对未见指令的更好泛化能力。
响应质量： 这也许是最重要的方面。响应应：
- 有益： 直接回应指令并提供相关信息。
- 真实： 事实准确，避免凭空捏造（幻觉 (hallucination)）。如果不确定，模型理想情况下应表明不确定性。
- 无害： 避免生成有害、偏见、非法或危险内容。对有害指令的响应应为拒绝。
- 清晰且格式良好： 使用清晰的语言、适当的结构（如列表或段落）和正确的格式（如代码的markdown）。
指令清晰度： 指令本身应措辞良好且明确。模糊的指令可能导致泛化或无益的响应，使模型难以学习预期的行为。
足够规模： 尽管质量胜于数量，但一个合理规模的数据集（从数千到数十万个示例不等，取决于模型大小和多样性目标）对于模型有效学习是必要的。

数据创建的来源与方法

获取或生成高质量的指令-响应对是一项重大的工程投入。常用方法包括：

使用现有公共数据集： 一些公开可用的数据集已为指令微调 (fine-tuning)而创建。例如包括FLAN Collection的子集、P3（Prompt公共池）、Alpaca数据集、Dolly数据集和OpenAssistant Conversations。这些可以提供一个良好的起点，但其质量、多样性和许可条款可能有所不同。仔细审查和筛选这些数据集非常重要。
人工标注与整理： 这通常被认为是质量的黄金标准。人工标注者会获得指导原则，并被要求编写指令和/或高质量响应。
- 指令编写： 人工编写多样化和有创意的提示。
- 响应编写： 人工编写针对给定指令的详细、准确和安全的响应。
- 质量评分/排序： 人工对模型生成的响应进行评分或比较，这可以稍后用于筛选或训练奖励模型（参见第26章）。
尽管质量高，但这种方法昂贵、耗时，并且需要严格的质量控制流程和明确的标注指导原则。

SFT数据的人工标注流程。
模型生成（自指导/演化方法）： 这种方法使用一个强大的现有大型语言模型（通常是专有模型或强大的开源模型）来生成新的指令-响应对，有时从少量人工编写的种子示例开始。
- 指令生成： 提示模型根据种子示例创建新颖指令。
- 响应生成： 提示模型为给定指令生成响应。
- 筛选： 使用启发式方法、分类器，甚至生成器模型本身来筛选出低质量或重复的生成示例。

例如，可能会像这样提示一个有能力的LLM（示例）：

```python

使用生成函数示例

import hypothetical_llm_client

seed_instructions = [
    {
        "instruction": "Write a Python function to calculate factorial.",
        "response": "def factorial(n): ..."
    },
    {
        "instruction": "Explain the concept of photosynthesis.",
        "response": "Photosynthesis is the process..."
    },
    # ... 更多种子示例
]

prompt_template = """
您的任务是生成新的、多样化的编程相关指令，类似于提供的示例。
确保指令清晰且与示例不同。
生成一条新指令。

示例：
{seed_examples_formatted}

新指令："""

formatted_seeds = "\n".join(
    [f"Instruction: {ex['instruction']}" for ex in seed_instructions]
)
generation_prompt = prompt_template.format(seed_examples_formatted=formatted_seeds)

# 假设 generate_text 生成指令文本
new_instruction_text = hypothetical_llm_client.generate_text(
    prompt=generation_prompt,
    max_length=100
)

print(f"生成的指令: {new_instruction_text}")

# 之后，可能会再次提示以获取此新指令的响应
# response_prompt = f"Instruction: {new_instruction_text}\nResponse:"
# new_response = hypothetical_llm_client.generate_text(
#   prompt=response_prompt,
#   max_length=500
# )
```

尽管可扩展，但这种方法有放大生成器模型中偏见的风险，并且与人工标注相比，有时会生成多样性较差或质量较低的数据。仔细的筛选和潜在的人工审查通常是必要的。

4. 混合来源： 通常，最有效的数据集会结合来自多个来源的示例。例如，从公共数据集开始，使用人工整理的示例进行扩充，涵盖特定方面或安全行为，并可能添加用于特定能力的合成生成数据。

数据整理与质量控制

无论来源如何，原始指令-响应对都需要整理：

筛选： 移除包含不正确信息、有害内容、无意义指令或格式不佳响应的示例。可以使用自动化筛选器（例如，毒性分类器、代码规范检查工具、长度启发式规则）和人工审查。
去重： 移除完全或近似重复的指令-响应对，以提高数据效率。哈希或语义相似性检查等技术会有帮助。
格式标准化： 确保所有示例遵循模型在训练期间将看到的一致格式（例如，在指令和响应之间使用特定分隔符）。这将在下一节中更详细地介绍。
平衡： 检查任务和主题的分布。如果数据集严重偏向某一种指令类型（例如，简单问答），模型在其他方面可能表现不佳。考虑对代表性不足的类别进行过采样或为其生成更多数据。

构建高质量指令数据集是一个迭代过程。它涉及仔细规划、生成或收集、严格清洗，以及根据SFT模型在评估期间的表现进行持续改进。在此投入的努力直接转化为一个更有益、真实和无害的语言模型。

这部分内容有帮助吗？

参考文献

Scaling Instruction-Finetuned Transformers, Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei, 2022 ICML DOI: 10.48550/arXiv.2210.11416 - 本文介绍了指令微调和FLAN数据集，强调任务多样性对提升语言模型泛化能力的益处。
Dolly v2: Databricks’ First Open-Source, Instruction-Following LLM, Mike Conover, Matthew Hayes, Jonathan Frank, et al., 2023 (Databricks Blog) - 详细介绍了Databricks Dolly指令数据集的创建过程，其显著特点是完全由人工生成，不依赖专有模型输出，并用于训练开源LLM。