趋近智
典型的RLHF流程,尤其是PPO阶段,通常需要在在线环境下生成大量数据。策略模型对提示生成回应,这些回应由奖励模型评分,这种经验(提示、回应、奖励、KL散度项)用于更新策略。这个循环会重复多次。尽管有效,但这种在线生成和评估可能计算量大且耗时,尤其对于大型模型。此外,用于训练奖励模型的核心人工偏好数据获取成本很高。提升样本效率意味着从现有数据中获得更多价值,或减少RL优化阶段所需的新数据量。
有几种方法旨在使RLHF更具样本效率:
离线RL方法不完全依赖于PPO期间新生成的在线数据,而是尝试直接从固定、预先收集好的数据集中学习。在RLHF的背景下,这个数据集可能包含:
离线RL中的主要难题是分布偏移。训练中的策略可能会学着偏向于在静态数据集中根据奖励模型看起来不错、但在该数据集中却很少见或从未出现过的行动(token序列)。部署后,这样的策略在实际遇到或后续在线交互中出现的分布上可能表现不佳。
适用于离线RL的算法通常会加入约束或正则化 (regularization)项来缓解这个问题。它们旨在让学习到的策略接近行为策略(生成离线数据的策略)。例子包括:
将这些方法应用于RLHF需要使其适应序列生成以及RLHF的特定目标(在KL散度约束下最大化奖励)。其目的是更直接地使用昂贵的偏好数据集进行策略优化,有可能减少对大量在线PPO生成的需求。直接偏好优化 (DPO),在另一节讨论过,通过直接对偏好对进行优化,完全避免了在线RL循环,从而在理念上有一些相似之处。
典型的在线RLHF(如PPO)与离线RL方法的数据流比较图。在线RL持续生成新经验,而离线RL从固定数据集中学习。
受离策略RL(如DQN)中成功方法的启发,经验回放涉及将过去的经验存储在缓冲区中,并从该缓冲区采样批次以执行多次梯度更新。在RLHF的标准PPO中,在一个迭代中生成的经验通常只用于该迭代内的更新,之后就会被丢弃(或只进行非常有限的回放)。
将经验回放应用于RLHF意味着将诸如 (prompt, generated_sequence, reward_score, log_probs_old_policy) 的元组存储在回放缓冲区中。在策略更新期间,会从该缓冲区中采样批次。
益处:
挑战:
像TRL这样的库通常在其PPO训练器中提供配置,允许在同一批收集到的数据上进行多个PPO训练周期,这在每个在线数据收集阶段起到了有限经验回放的作用。
虽然PEFT技术并未直接减少RL意义上所需的样本(交互)数量,但它显著提高了处理每个样本的效率。像低秩适应 (LoRA)、前缀微调或适配器这样的方法会冻结大型语言模型的大部分参数,并且只训练少量额外或修改的参数。
对RLHF效率的影响:
通过使RLHF流程的每个步骤(尤其是PPO更新)更便宜、更快,PEFT间接有助于提高整体效率。它让研究人员和工程师在给定的时间和预算限制内执行更多RL训练步骤,有效地在单位资源下完成更多优化,这通常意味着使用现有数据可以获得更好的结果。在现代RLHF实现中,结合使用Hugging Face的peft和trl等库来集成PEFT方法是一种常见做法。
另一种方法涉及增强现有的偏好或SFT数据集。这可能包括:
目的是增加训练数据的多样性和规模,而无需新的人工标注。然而,增强数据的质量很重要。糟糕的增强可能会引入噪声或不必要的偏差,可能损害模型性能或对齐 (alignment)效果。
提升样本效率通常涉及权衡:
选择正确的方法取决于RLHF流程的具体限制(计算预算、数据可用性)和目标。通常,多种方法的结合,例如在PPO训练期间使用PEFT并对每批数据进行多次更新周期,在性能和效率之间提供了实用平衡。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•