趋近智
策略模型在强化学习 (reinforcement learning)(RL)循环中的核心任务是根据给定提示生成回复。这种策略模型通常是经过微调 (fine-tuning)的大型语言模型(LLM)。这一生成步骤代表了标准RL框架中的“动作”阶段,在此阶段,策略 在给定状态(输入提示)下执行动作(生成文本)。
这个过程始于一批提示,这些提示通常源自用于奖励模型训练的相同数据集,或者是一个精心准备的、旨在引出多样行为的集合。对于批处理中的每个提示 ,使用当前策略模型 来生成相应的文本序列 。
这种生成通常采用大型语言模型常见的标准自回归 (autoregressive)解码方法。然而,与简单推理 (inference)相比,在RLHF(人类反馈强化学习 (reinforcement learning))情境中一个重要的区别是需要进行试探。我们不只是想要单一最有可能(贪婪)的回复;我们需要尝试不同的可能回复,以找出那些根据奖励模型可能带来更高奖励的回复。
因此,生成过程主要依赖采样技术,而非纯粹的贪婪解码。常见的采样策略包括:
这些采样方法常被组合使用(例如,温度缩放后接top-k或top-p)。此外,控制生成长度的参数(max_new_tokens)以及可能的重复惩罚(repetition_penalty)对于生成连贯且有用的回复来说非常重要。
此阶段的输入是一个提示,输出是来自活跃策略模型(正在通过PPO更新的模型)生成的回复。
该图展示了输入提示如何送入活跃策略模型,该模型运用采样策略生成文本回复的流程。
这个阶段的结果是收集到的 (提示, 生成回复) 对。这些对代表了策略所收集的经验。流程中的下一个重要步骤,将在下一节详细说明,是使用训练过的奖励模型评估这些生成的回复,以判断根据已学习到的人类偏好,每个回复的“好”坏程度。这个奖励信号随后将驱动PPO更新。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•