生成用于对齐方法的偏好数据

将大型语言模型（LLM）与人类价值观和意图对齐 (alignment)，是使其更有帮助、无害且诚实的重要一步。实现此对齐的主要方法是使用偏好数据训练模型。此类数据包含示例，即在给定特定提示或背景下，一个模型响应被明确地优于另一个。尽管人工标注的偏好数据非常有价值，但其收集可能耗费高昂且耗时。讨论生成合成偏好数据的方法，以补充甚至替代人工标注数据，特别是对于像基于AI反馈的强化学习 (reinforcement learning)（RLAIF）这样的方法。

理解偏好数据及其在RLAIF中的作用

偏好数据核心在于其能记录对不同LLM输出相对质量的判断。对于给定的输入提示，LLM可能会生成两个或更多响应。偏好数据表明根据特定标准，这些响应中哪个更好。例如：

提示： "向一个5岁孩子解释黑洞。"
响应 A (被选)： "想象一个太空中的巨大吸尘器，它的吸力大到连光都能吸进去！那就是黑洞。它就像天空中一个大大的、黑黑的吞噬者。"
响应 B (被拒)： "黑洞是时空的一个区域，其引力非常强大，以至于包括光和其他电磁波在内的任何物质都没有足够的能量逃离其事件视界。广义相对论预测，足够紧凑的质量可以使时空变形形成黑洞。"

在这里，响应A更受欢迎，因为它更简单且更适合目标受众，即使响应B在技术上更准确。

这种数据是RLAIF的基础。在RLAIF中，典型流程包括：

收集偏好数据： 收集（提示，被选响应，被拒响应）对。
训练奖励模型（RM）： 训练RM以预测哪个响应更好。它学会为给定提示的“被选”响应分配更高的标量分数，为“被拒”响应分配更低的分数。RM基本上学习一个反映人类（或AI定义）偏好的函数 $r( ext{提示}, ext{响应})$ 。
微调 (fine-tuning)LLM： 原始LLM随后使用强化学习 (reinforcement learning)进行微调。RM提供奖励信号，引导LLM生成RM评分高的响应。

偏好数据的质量和数量直接影响奖励模型的有效性，从而影响最终LLM的对齐 (alignment)。

图示偏好对的生成及其在奖励模型训练中的用途。

为何使用合成偏好数据？

创建大型、多样化且高质量的人类偏好数据集是一个重要瓶颈。这需要仔细的指导、一致的标注，并且可能非常昂贵。合成偏好数据生成旨在通过程序化创建这些（提示、被选、被拒）元组来缓解这些挑战。这使得以下成为可能：

可扩展性： 比手动标注更快、更经济地生成大量偏好数据。
多样性： 程序化地涵盖更广泛的提示和响应变体。
定向改进： 通过设计合成数据来解决特定行为或缺陷，从而进行有针对性的改进。
自举： 使用初始模型或一组规则来生成数据，然后可用于改进更高级的模型。

生成合成偏好数据的方法

可以采用多种方法来创建合成偏好数据。这些方法通常涉及将一个或多个LLM用作“生成器”或“判断器”。

1. LLM作为判断器

最常见的方法之一是使用一个有能力的LLM作为“判断器”来评估和排序响应。流程通常如下：

生成候选响应： 对于给定提示，一个LLM（这可以是您打算对齐 (alignment)的模型，也可以是另一个模型）生成两个或更多候选响应。您可以通过调整温度等采样参数 (parameter)或使用不同的系统提示来鼓励响应的多样性。
提示判断器LLM： 独立且通常更强大的LLM（“判断器”）被提示去比较候选响应并选择偏好的一个。给判断器的提示很重要，可能包含：
- 原始用户提示。
- 候选响应（例如，“响应 A”，“响应 B”）。
- 具体的评估标准（例如，“哪个响应更有帮助？”，“哪个响应危害较小？”，“哪个响应更简洁且事实准确？”）。
- 所需的输出格式（例如，“选择 A 或 B”，或提供简要理由）。
例如，给判断器LLM的提示可能是：
```
用户提示: "What are the main benefits of exercise?"

响应 A: "Exercise is good."
响应 B: "Regular exercise offers numerous benefits, including improved cardiovascular health, weight management, increased energy levels, better mood, and reduced risk of chronic diseases."

哪个响应更有帮助、更全面？请仅输出'A'或'B'。
```
形成偏好对： 根据判断器的输出，您形成（提示，被选响应，被拒响应）元组。

合成偏好数据的质量在很大程度上取决于判断器LLM的能力及其指令的清晰度。判断器LLM也有可能表现出自身的偏见，这些偏见可能会传递到奖励模型中。

2. 基于规则或启发式生成

您可以不依赖LLM判断器，而是定义明确的规则或启发式方法来确定偏好。

生成基础响应： LLM生成对提示的初始响应。
创建变体：
- 被选变体： 基础响应可能原封不动被接受，或通过规则略微改进（例如，确保其满足特定长度，使用礼貌语言）。
- 被拒变体： 基础响应被故意扰动以引入缺陷。这可能包括：
  - 添加冗余词使其冗长。
  - 截断响应使其不完整。
  - 注入常见事实错误（如果您有此类错误数据库）。
  - 否定答案的重要部分。
  - 根据预定义模式降低礼貌度或帮助性。
形成偏好对： 改进/原始响应成为“被选”，有缺陷的版本成为“被拒”。

例如，如果规则旨在偏好简洁的答案：

提示： "总结《哈姆雷特》的情节。"
响应（初始）： 一个冗长、详细的总结。
响应（被选 - 应用简洁规则后）： 一个更短、更精炼的总结。
响应（被拒 - 原始冗长版本，或添加冗余的版本）： 初始的冗长总结。

此方法提供更多控制，但需要仔细设计规则，并且可能不如LLM判断器那般细致。

3. 自我批评与修订

此方法涉及一个LLM（或一组LLM）迭代地改进响应。

初始生成： LLM生成对提示的响应。
批评： 相同的LLM，或另一个LLM，被提示根据特定标准批评初始响应（例如，“识别此响应中的任何事实不准确之处”，或“建议如何使此响应更具同理心”）。
修订： 初始LLM（或另一个）根据批评修订响应。
形成偏好对：
- 被选： 修订后、改进的响应。
- 被拒： 原始、未经修订的响应。

另外，如果批评发现了一个未通过修订修复的明显缺陷，则原始的有缺陷响应可能成为“被拒”项，而一个单独的“好”响应（可能通过不同提示或由人类生成）可能成为“被选”项。

4. “黄金”响应的扰动

如果您拥有高质量“黄金”响应数据集（例如，来自现有指令遵循数据集或人类编写的示例），您可以通过以下方式创建偏好对：

选取一个黄金响应： 这将成为“被选”响应。
生成被拒响应： 系统性地在黄金响应中引入缺陷或不理想的特征。扰动示例包括：
- 事实否定： 将肯定陈述改为否定陈述，反之亦然。
- 细节移除： 遗漏重要细节。
- 风格退化： 使语气帮助性降低或更机械化。
- 添加幻觉 (hallucination)： 注入看似合理但不正确的信息。
- 引入偏见： 修改响应以反映已知偏见。

这里的挑战在于使“被拒”响应存在细微缺陷而非明显荒谬，因为这有助于奖励模型学习更细致的区分。

5. 使用模型置信度分数（偏好对中较不常见）

尽管不是直接为RLAIF生成（被选，被拒）对，但有些方法会使用模型置信度分数。如果模型可以输出其生成内容的置信度，或者如果多个多样化生成内容可以通过某些外部指标进行评分，您可以通过将高置信度/高分响应指定为“被选”和低置信度/低分响应指定为“被拒”来形成对。这种方法通常更难可靠地校准以传授偏好。

合成偏好数据的结构化与存储

无论采用何种生成方法，合成偏好数据通常以结构化格式存储，常见为JSONL文件，其中每行是一个JSON对象，代表一个偏好对：

{
  "prompt": "Python列表推导式的最佳实践是什么？",
  "chosen": "当逻辑简单且可读时，创建列表推荐使用列表推导式。避免过于复杂的推导式；使用for循环可能更清晰。它们提供了一种简洁的列表创建方式，通常能提高手动追加的性能。",
  "rejected": "Python列表推导式是一种特性。你通过编写一个表达式，然后跟着一个for子句，再跟零个或多个for或if子句来使用它们。它们用来创建列表。这有点像一个循环。",
  "generation_method": "llm_as_judge",
  "judge_model_id": "gpt-4-turbo",
  "criteria": "helpfulness_and_clarity"
}

包含诸如generation_method、judge_model_id（如适用）和criteria等元数据对于调试、分析以及合成数据生成流程的迭代改进非常有用。

质量考量与潜在问题

尽管合成偏好数据提供了规模优势，但质量控制仍非常重要：

判断器偏见： 如果使用LLM作为判断器，判断器固有的偏见或局限性可能会被编码到偏好数据中，并随后进入奖励模型。例如，即使需要简洁，判断器LLM也可能偏爱更长的响应。
多样性不足： 如果提示或生成策略过于狭窄，生成的偏好数据可能无法涵盖足够广泛的行为，导致RM在特定任务上表现良好，但泛化能力较差。
意外偏好： 合成生成过程可能无意中使RM学习到不理想的偏好。例如，如果“被拒”响应总是短得多，RM可能会学到过度惩罚简短性。
判断难度： 某些偏好本质上是主观的，或者需要当前的LLM判断器可能缺乏的专业知识。
回音室效应： 如果生成候选的LLM和作为判断器的LLM过于相似，或者判断器只是偏爱与自身风格相似的输出，您可能会创建一个回音室效应，这不利于真正的改进或与更广泛人类偏好的一致。

通常，将合成数据与一小部分高质量的人工标注偏好数据混合使用是有益的，以稳定奖励模型。此外，正如本章稍后讨论的，严格的过滤和质量保证流程对于任何合成数据集，包括偏好数据，都是不可或缺的。

生成合成偏好数据是一种有效的方法，可扩展LLM对齐 (alignment)工作。通过仔细设计生成策略并注意潜在挑战，您可以创建有价值的数据集，帮助训练奖励模型，引导LLM产生更理想的行为。您将在本章稍后学习构建的数据过滤脚本直接适用于优化这些合成偏好数据集。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan, 2022 arXiv preprint arXiv:2212.08073 DOI: 10.48550/arXiv.2212.08073 - 本文介绍了“宪法式AI”，一种通过AI反馈和批评，根据一系列原则对模型进行对齐的方法，为通过“LLM作为判官”方法生成合成偏好数据提供了基础。