标准RLHF通常会优化一个语言模型,其依据是源自汇总的人类偏好的单一奖励模型。这个奖励模型通常代表着关于何为“好”回应的平均或共识看法。然而,人类偏好很少是单一的;它们在很大程度上取决于情境、用户或具体的任务要求。在轻松的头脑风暴会议中被认为有益的回应,在正式的技术支持交流中可能就不合适。这种限制促使了上下文 (context)和条件式RLHF技术的出现。
这些方法旨在通过纳入即时提示和回应组合中的额外信息,使对齐 (alignment)过程更具适应性。它们允许语言模型的行为、其优化的奖励信号或两者,根据具体情况进行调整。
了解上下文 (context)与条件式RLHF
虽然相关,但两者之间存在有益的区分:
- 上下文RLHF: 根据交互或环境的动态的、常为隐式推断的特性调整奖励信号或策略。这种情境可能包含用户历史、对话主题、用户人口统计数据(如果可用且符合道德规范)、检测到的用户情绪,甚至是一天中的时间。目标是捕捉随情况细微变化的偏好。
- 条件式RLHF: 根据明确的、预设的条件或模式调整奖励信号或策略。这些条件通常是特意设定的,例如选择“创意写作模式”、“事实问答模式”,或根据预设类别(如“儿童安全模式”)应用不同的安全限制。
核心思路是从单一偏好函数 R(提示,回应) 转向更细致的函数,例如上下文RLHF的 R(提示,回应,情境),或者根据条件选择不同的奖励函数 R1,R2,...,Rn 用于条件式RLHF。
为何要调整RLHF?
纳入情境或条件带来多种益处:
- 个性化: 模型可以根据个人用户偏好、风格或历史定制回应,从而带来更具吸引力且更有效的交互。
- 任务专用优化: 不同的任务(例如,编码辅助、摘要、对话)可能需要不同的奖励标准。条件式RLHF允许针对当前的具体任务进行优化。
- 增强安全与控制: 在敏感情境(例如,医疗建议、金融讨论)或针对特定用户群体时,可以激活更严格的对齐 (alignment)规则或不同的奖励模型,同时在其他方面允许更大自由度。
- 捕捉细节: 它使模型能学习到偏好,这些偏好并非普遍适用但在特定情况下有意义。例如,对简洁的偏好在问答中适用,但在讲故事中不适用。
实施策略
多种架构选择能实现上下文 (context)或条件适应:
-
情境感知奖励模型: 上下文RLHF最直接的方法是修改奖励模型架构,使其除了接收提示和回应外,还能接收情境特征作为输入。模型随后学习在给定情境下预测偏好:
奖励=Rθ(提示,回应,情境特征)
训练此类模型需要偏好数据集,其中每个比较 (提示,选中回应,驳回回应) 都标注有交互过程中存在的相关情境特征。
-
条件选择/切换: 对于条件式RLHF,一个更简单的方法是训练多个专门的奖励模型(RM条件A, RM条件B, 等),或针对每个预设条件定义不同的PPO目标(例如,改变KL惩罚强度 β)。在RL微调 (fine-tuning)期间,会根据与训练数据点相关的活跃条件,选择相应的RM或目标配置。
-
情境/条件作为策略输入: 情境消息或条件标记 (token)可以直接馈入策略模型本身,通常作为输入序列的一部分(例如,预置的token或嵌入 (embedding)特征)。策略网络 πϕ(输出∣提示,情境/条件) 学习根据这些输入生成不同风格的回应。这可以与标准奖励模型(假设情境适宜的行为自然会获得更高奖励)或情境感知/条件式奖励模型结合,以获得更强的信号。
此图比较了标准RLHF流程与上下文式(情境影响策略和奖励模型)和条件式(条件影响策略并选择奖励模型或配置)流程。
数据与挑战
主要挑战在于数据获取。训练情境感知奖励模型需要偏好数据,其中每个比较都需标注相关情境。对于条件式RLHF,数据需要根据适用的条件进行标注。这显著增加了数据收集的复杂性和成本,相比标准RLHF。
其他挑战有:
- 情境表示: 找到有效编码多样且可能是高维的情境(例如,用户历史、对话状态)为可供奖励模型或策略使用的特征的方法。
- 数据稀疏性: 确保在所有重要的情境或条件中都有足够的偏好数据覆盖,以避免虚假关联或泛化能力差。
- 复杂性增加: 训练和推理 (inference)都变得更复杂,可能需要更大的模型或更复杂的逻辑来选择配置。
- 评估: 评估模型性能需要在多种情境和条件下进行,这使得评估过程比简单衡量整体偏好对齐 (alignment)更复杂。
示例场景
- 条件式示例: 一个专为软件开发设计的LLM助手可以有不同模式:“代码生成”、“调试”和“文档编写”。条件式RLHF可以使用不同的奖励模型,分别针对代码正确性/效率、识别错误根源或解释的清晰度/完整性进行优化。用户明确选择模式,从而触发相应的RLHF配置。
- 上下文 (context)示例: 一个从用户反馈中学习的对话式AI可能会调整其正式程度。如果用户的消息(情境)始终非正式且使用俚语,情境感知的奖励模型可能会学习偏好AI给出类似非正式的回应,而正式的用户语言则会导致它偏好更正式的AI回应。这会根据正在进行的交互情境动态发生。
上下文和条件式RLHF代表着朝着更复杂、更具适应性的AI对齐 (alignment)迈出的重要一步。通过承认偏好并非一成不变,这些技术能创建出更个性化、更符合任务需求且更可控的语言模型,尽管代价是数据收集和实施的复杂性增加。