高质量SFT数据集的整理

监督微调 (fine-tuning)（SFT）阶段使成功的人类反馈强化学习 (reinforcement learning)（RLHF）成为可能。它的目的是在引入强化学习之前，使通用预训练 (pre-training)语言模型适应与您的对齐 (alignment)目标相关的特定风格、格式和领域。用于SFT的数据集质量直接影响初始策略模型的能力，并从而影响整个RLHF流程的有效性和效率。一个整理得好的SFT数据集能提供一个坚实的起点，通过示范教导模型期望的基线行为。

SFT数据的来源

获取高质量的提示-响应对对SFT很重要。有几种常见方法，每种都有其利弊：

人工示范： 这通常被认为是黄金标准。人工编写者遵循特定指导方针，编写提示和期望的响应。
- 优点： 质量潜力高，能与指令直接对齐 (alignment)。允许对期望行为进行细致控制。
- 缺点： 扩展成本高且耗时。需要清晰、详细的指令和严格的质量控制，以确保一致性并减少标注者偏见。质量严重依赖人工标注者的技能和培训。
过滤现有数据集： 使用公开可用的指令遵循或对话数据集（例如，源自StackExchange的指令数据集、整理的学术数据集，或像OpenAssistant这样的数据集）。
- 优点： 可以相对快速、低成本地提供大量数据。可能覆盖广泛的主题。
- 缺点： 质量可能差异很大。数据可能不完全符合目标领域、风格或安全要求。需要在过滤、清理和可能重新格式化方面投入大量精力，以只选择高质量、相关的示例。可能包含原始来源中存在的偏见或不良行为。
模型生成数据与人工审查/编辑： 使用一个有能力的现有大型语言模型（有时称为“教师”模型）来生成对提示的初始响应，然后由人类进行审查、评分和编辑。
- 优点： 与纯人工编写相比，可以加快数据生成。人类侧重于完善而非初始起草。
- 缺点： 存在继承生成模型偏见或风格特点的风险。仍需要大量人工投入进行审查和质量保证。如果生成模型没有仔细的提示和过滤，它可能无法生成所需质量或遵守特定限制。

无论来源如何，重点都必须放在质量和与目标对齐目的的相关性上。一个规模较小但高质量的数据集通常比一个庞大、嘈杂的数据集对SFT更有效。

高质量SFT数据的特点

什么构成“高质量”的示范？有几个属性很重要：

对齐 (alignment)： 示例必须直接反映期望的特征（例如，有用性、无害性、诚实性、特定语气、遵守指令）。如果目标是无害性，SFT数据不应包含有害示例，即使提示可能招致它们。
指令遵循： 响应应准确完整地回应提示。对于复杂提示，响应应体现对请求不同部分的理解。
清晰性和连贯性： 响应应写作良好、语法正确、易于理解且逻辑清晰。
事实准确性（如适用）： 对于需要事实信息的提示，响应应准确并避免编造（幻觉 (hallucination)）。
适当的格式和风格： 如果模型期望以特定格式（如Markdown、JSON或代码）生成输出，或采用特定角色或风格，SFT示例必须始终如一地体现这一点。
多样性： 数据集应覆盖目标领域内广泛的用户预期输入、主题和指令类型。这包括：
- 不同的提示长度和复杂程度。
- 不同的用户意图（例如，提问、给出命令、寻求创意内容）。
- 可能具有挑战性或模糊的提示。
- 涵盖相关边缘情况的示例。

整理SFT数据集的典型工作流程包括定义要求、获取数据、过滤或创建示例、执行质量检查、清理数据，并可能根据审查反馈完善准则。

整理过程和良好实践

创建有效的SFT数据集需要系统化方法：

制定明确准则： 为标注者或过滤标准创建详细的规范文档。这应明确定义期望的响应特点、风格、语气、格式规则，以及什么构成“好”与“坏”的示例。包括正反示例。
迭代完善： 从小批量数据开始。训练一个初始SFT模型，并对其性能进行定性和定量评估。使用这些发现来完善准则和整理过程，然后再扩大数据收集或过滤规模。质量通常比单纯的数量更重要，特别是在早期。
实施严格质量控制（QC）：
- 对部分数据使用多名标注者，以衡量标注者间的一致性。
- 让经验丰富的审阅者或领域专家检查样本。
- 跟踪标注者表现并提供反馈。
- 在可能的情况下自动化检查（例如，代码风格检查、格式验证）。
处理潜在偏见： 注意可能由标注者或源数据引入的人口统计学、文化、政治或风格偏见。积极寻求提示和预期响应的多样性，并明确指示标注者避免有害刻板印象或有偏见的语言。
统一数据格式： 确保所有示例遵循一致的结构，通常是JSON格式，包含prompt、response以及可能还有source、annotator_id或quality_rating等元数据字段。

[
  {
    "prompt": "解释RLHF PPO中KL散度的概念，用简单的话语。",
    "response": "在RLHF PPO中，KL散度衡量的是模型行为（策略）在训练期间与其原始行为（PPO微调前，通常是SFT模型）相比的改变程度。我们根据这种散度向PPO目标添加惩罚。 \n\n可以把它想象成一根牵引绳：我们希望模型从奖励信号中学习（根据人类偏好变得更好），但我们不希望它偏离SFT期间学到的通常合理的行为*太远*或*太快*。过多的散度可能导致不可预测或无意义的输出，或者找到漏洞（“奖励作弊”）。KL惩罚有助于保持训练稳定，并确保模型不会完全忘记其初始训练。",
    "source": "human_annotator_v2",
    "category": "RL_concepts"
  },
  {
    "prompt": "编写一个Python函数来计算非负整数的阶乘。",
    "response": "```python\ndef factorial(n):\n  \"\"\"计算非负整数的阶乘。\n\n  参数：\n    n：一个非负整数。\n\n  返回：\n    n的阶乘。\n\n  异常：\n    ValueError：如果n为负数。\n    TypeError：如果n不是整数。\n  \"\"\"\n  if not isinstance(n, int):\n    raise TypeError(\"输入必须是整数。\")\n  if n < 0:\n    raise ValueError(\"输入必须是非负数。\")\n  if n == 0:\n    return 1\n  else:\n    res = 1\n    for i in range(1, n + 1):\n      res *= i\n    return res\n\n# 示例用法：\nprint(factorial(5)) # 输出：120\n```",
    "source": "filtered_code_dataset_v1",
    "category": "coding"
  }
]

SFT数据点的示例结构，通常以JSON或类似格式存储。一致性对于训练期间的解析很重要。

SFT数据集整理中的挑战

整理这些数据集并非没有困难：

成本和可扩展性： 高质量的人工标注成本昂贵。扩展到数十万或数百万示例需要大量投资和基础设施。
主观性和分歧： 对于风格元素或指令，不同的标注者可能有不同的解释，导致不一致。需要明确的准则和校准会议。
隐性偏见： 即使有明确的反偏见指令，细微的偏见也可能根据标注者群体或源材料渗入数据。持续审计和整理团队中多样化的观点有助于缓解这一点。
确保多样性： 预料所有用户交互具有挑战性。数据集可能无意中缺乏对特定主题、用户类型或边缘情况的覆盖，导致后期模型出现意外故障。
在规模扩大时保持质量： 随着数据集规模的增加，确保所有示例的质量一致变得更难。质量控制流程必不可少。

为整理高质量SFT数据集所投入的努力，在整个RLHF过程中都会带来回报。一个初始化良好的模型能为奖励建模提供更坚实的基础，在RL微调 (fine-tuning)期间需要不那么剧烈的策略更新（通常导致更稳定的PPO训练），并最终有助于得到一个更好对齐 (alignment)的最终语言模型。忽视SFT数据质量可能导致后续阶段的困难，可能需要更广泛的偏好数据或更复杂的RL调优策略来实现期望的对齐目标。

这部分内容有帮助吗？

参考文献

Training language models to follow instructions with human feedback, Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe, 2022 Advances in Neural Information Processing Systems (NeurIPS) 35 DOI: 10.48550/arXiv.2203.02155 - 本文介绍了RLHF范式，并描述了最初的监督微调（SFT）阶段，该阶段利用人工编写的示例来对齐语言模型。