上下文和条件式RLHF

标准RLHF通常会优化一个语言模型，其依据是源自汇总的人类偏好的单一奖励模型。这个奖励模型通常代表着关于何为“好”回应的平均或共识看法。然而，人类偏好很少是单一的；它们在很大程度上取决于情境、用户或具体的任务要求。在轻松的头脑风暴会议中被认为有益的回应，在正式的技术支持交流中可能就不合适。这种限制促使了上下文 (context)和条件式RLHF技术的出现。

这些方法旨在通过纳入即时提示和回应组合中的额外信息，使对齐 (alignment)过程更具适应性。它们允许语言模型的行为、其优化的奖励信号或两者，根据具体情况进行调整。

了解上下文 (context)与条件式RLHF

虽然相关，但两者之间存在有益的区分：

上下文RLHF： 根据交互或环境的动态的、常为隐式推断的特性调整奖励信号或策略。这种情境可能包含用户历史、对话主题、用户人口统计数据（如果可用且符合道德规范）、检测到的用户情绪，甚至是一天中的时间。目标是捕捉随情况细微变化的偏好。
条件式RLHF： 根据明确的、预设的条件或模式调整奖励信号或策略。这些条件通常是特意设定的，例如选择“创意写作模式”、“事实问答模式”，或根据预设类别（如“儿童安全模式”）应用不同的安全限制。

核心思路是从单一偏好函数 $R(提示, 回应)$ 转向更细致的函数，例如上下文RLHF的 $R(提示, 回应, 情境)$ ，或者根据条件选择不同的奖励函数 $R_1, R_2, ..., R_n$ 用于条件式RLHF。

为何要调整RLHF？

纳入情境或条件带来多种益处：

个性化： 模型可以根据个人用户偏好、风格或历史定制回应，从而带来更具吸引力且更有效的交互。
任务专用优化： 不同的任务（例如，编码辅助、摘要、对话）可能需要不同的奖励标准。条件式RLHF允许针对当前的具体任务进行优化。
增强安全与控制： 在敏感情境（例如，医疗建议、金融讨论）或针对特定用户群体时，可以激活更严格的对齐 (alignment)规则或不同的奖励模型，同时在其他方面允许更大自由度。
捕捉细节： 它使模型能学习到偏好，这些偏好并非普遍适用但在特定情况下有意义。例如，对简洁的偏好在问答中适用，但在讲故事中不适用。

实施策略

多种架构选择能实现上下文 (context)或条件适应：

情境感知奖励模型： 上下文RLHF最直接的方法是修改奖励模型架构，使其除了接收提示和回应外，还能接收情境特征作为输入。模型随后学习在给定情境下预测偏好：
$奖励 = R_{\theta}(提示, 回应, 情境特征)$
训练此类模型需要偏好数据集，其中每个比较 $(提示, 选中回应, 驳回回应)$ 都标注有交互过程中存在的相关情境特征。
条件选择/切换： 对于条件式RLHF，一个更简单的方法是训练多个专门的奖励模型（ $RM_{条件A}$ , $RM_{条件B}$ , 等），或针对每个预设条件定义不同的PPO目标（例如，改变KL惩罚强度 $\beta$ ）。在RL微调 (fine-tuning)期间，会根据与训练数据点相关的活跃条件，选择相应的RM或目标配置。
情境/条件作为策略输入： 情境消息或条件标记 (token)可以直接馈入策略模型本身，通常作为输入序列的一部分（例如，预置的token或嵌入 (embedding)特征）。策略网络 $\pi_{\phi}(输出 | 提示, 情境/条件)$ 学习根据这些输入生成不同风格的回应。这可以与标准奖励模型（假设情境适宜的行为自然会获得更高奖励）或情境感知/条件式奖励模型结合，以获得更强的信号。

此图比较了标准RLHF流程与上下文式（情境影响策略和奖励模型）和条件式（条件影响策略并选择奖励模型或配置）流程。

数据与挑战

主要挑战在于数据获取。训练情境感知奖励模型需要偏好数据，其中每个比较都需标注相关情境。对于条件式RLHF，数据需要根据适用的条件进行标注。这显著增加了数据收集的复杂性和成本，相比标准RLHF。

其他挑战有：

情境表示： 找到有效编码多样且可能是高维的情境（例如，用户历史、对话状态）为可供奖励模型或策略使用的特征的方法。
数据稀疏性： 确保在所有重要的情境或条件中都有足够的偏好数据覆盖，以避免虚假关联或泛化能力差。
复杂性增加： 训练和推理 (inference)都变得更复杂，可能需要更大的模型或更复杂的逻辑来选择配置。
评估： 评估模型性能需要在多种情境和条件下进行，这使得评估过程比简单衡量整体偏好对齐 (alignment)更复杂。

示例场景

条件式示例： 一个专为软件开发设计的LLM助手可以有不同模式：“代码生成”、“调试”和“文档编写”。条件式RLHF可以使用不同的奖励模型，分别针对代码正确性/效率、识别错误根源或解释的清晰度/完整性进行优化。用户明确选择模式，从而触发相应的RLHF配置。
上下文 (context)示例： 一个从用户反馈中学习的对话式AI可能会调整其正式程度。如果用户的消息（情境）始终非正式且使用俚语，情境感知的奖励模型可能会学习偏好AI给出类似非正式的回应，而正式的用户语言则会导致它偏好更正式的AI回应。这会根据正在进行的交互情境动态发生。

上下文和条件式RLHF代表着朝着更复杂、更具适应性的AI对齐 (alignment)迈出的重要一步。通过承认偏好并非一成不变，这些技术能创建出更个性化、更符合任务需求且更可控的语言模型，尽管代价是数据收集和实施的复杂性增加。

这部分内容有帮助吗？

参考文献

Training Language Models to Follow Instructions with Human Feedback, Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe, 2022 arXiv preprint arXiv:2203.02155 DOI: 10.48550/arXiv.2203.02155 - 介绍了 InstructGPT，一个通过 RLHF 训练的关键模型，详细说明了上下文和条件方法所依据的标准流程。