趋近智
标准RLHF通常会优化一个语言模型,其依据是源自汇总的人类偏好的单一奖励模型。这个奖励模型通常代表着关于何为“好”回应的平均或共识看法。然而,人类偏好很少是单一的;它们在很大程度上取决于情境、用户或具体的任务要求。在轻松的头脑风暴会议中被认为有益的回应,在正式的技术支持交流中可能就不合适。这种限制促使了上下文和条件式RLHF技术的出现。
这些方法旨在通过纳入即时提示和回应组合中的额外信息,使对齐过程更具适应性。它们允许语言模型的行为、其优化的奖励信号或两者,根据具体情况进行调整。
虽然相关,但两者之间存在有益的区分:
核心思路是从单一偏好函数 R(提示,回应) 转向更细致的函数,例如上下文RLHF的 R(提示,回应,情境),或者根据条件选择不同的奖励函数 R1,R2,...,Rn 用于条件式RLHF。
纳入情境或条件带来多种益处:
多种架构选择能实现上下文或条件适应:
情境感知奖励模型: 上下文RLHF最直接的方法是修改奖励模型架构,使其除了接收提示和回应外,还能接收情境特征作为输入。模型随后学习在给定情境下预测偏好:
奖励=Rθ(提示,回应,情境特征)训练此类模型需要偏好数据集,其中每个比较 (提示,选中回应,驳回回应) 都标注有交互过程中存在的相关情境特征。
条件选择/切换: 对于条件式RLHF,一个更简单的方法是训练多个专门的奖励模型(RM条件A, RM条件B, 等),或针对每个预设条件定义不同的PPO目标(例如,改变KL惩罚强度 β)。在RL微调期间,会根据与训练数据点相关的活跃条件,选择相应的RM或目标配置。
情境/条件作为策略输入: 情境消息或条件标记可以直接馈入策略模型本身,通常作为输入序列的一部分(例如,预置的token或嵌入特征)。策略网络 πϕ(输出∣提示,情境/条件) 学习根据这些输入生成不同风格的回应。这可以与标准奖励模型(假设情境适宜的行为自然会获得更高奖励)或情境感知/条件式奖励模型结合,以获得更强的信号。
此图比较了标准RLHF流程与上下文式(情境影响策略和奖励模型)和条件式(条件影响策略并选择奖励模型或配置)流程。
主要挑战在于数据获取。训练情境感知奖励模型需要偏好数据,其中每个比较都需标注相关情境。对于条件式RLHF,数据需要根据适用的条件进行标注。这显著增加了数据收集的复杂性和成本,相比标准RLHF。
其他挑战有:
上下文和条件式RLHF代表着朝着更复杂、更具适应性的AI对齐迈出的重要一步。通过承认偏好并非一成不变,这些技术能创建出更个性化、更符合任务需求且更可控的语言模型,尽管代价是数据收集和实施的复杂性增加。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造