趋近智
训练一个能体现人类偏好的奖励模型 (RM) 是主要目标。随之而来的问题是:如何获得代表这些偏好的数据?RM 通过人类认为“好”或“坏”的AI行为示例来学习,这些行为是针对特定提示而产生的。收集人类偏好数据的实际过程在此阐述,这些数据是训练有效奖励模型的依据。
最普遍的做法是采用成对比较。我们不要求标注员给单一回复打上绝对质量分(这会非常主观且不一致),而是向他们展示一个提示和两个由语言模型生成的不同回复。标注员的任务仅仅是选择他们偏好哪个回复。这种相对判断对人类而言通常更容易,也更便于保持一致。
"1. 提示选择: 输入提示的来源通常是与先前模型版本的互动,或是经过整理的数据集,这些数据集旨在包含各种主题和风格(例如:问题、指令、创意写作提示)。提示的分布会显著影响所生成奖励模型的覆盖范围。" 2. 回复生成: 对于每个提示,会生成多个回复。这些回复通常来自: * 正在微调的语言模型的不同版本(例如:基础SFT模型与早期RLHF调优检查点)。 * 同一模型采用不同的解码策略(例如:改变温度或top-p采样)。 * 不同语言模型的输出。 3. 人工标注: 标注员会收到提示,以及一对生成的回复(通常会匿名化,并随机排序为回复A和回复B)。他们根据预设的评判标准(例如:有用性、无害性、准确性、遵循指令的情况)选择偏好的回复。通常也包含“质量相同”或“无法判断”的选项。
这是一个成对偏好标注任务的简化示意图。标注员比较针对单个提示的两个回复,并标明其偏好。
这种成对方法直接支持了前述的布拉德利-特里模型等训练目标,其中奖励模型学会分配分数 RM(提示,回复),使得分数差异能预测一个回复比另一个更受偏好的可能性。
尽管成对比较是主要方式,但也存在其他方法:
对于RLHF中训练奖励模型而言,成对比较通常能在标注效率和数据质量之间提供良好的平衡。
偏好数据的质量取决于人工标注员。需要考量的事项有:
收集偏好数据容易遇到多种挑战:
周密的规划、清晰的指导、严格的标注员培训和持续的质量监控,对于收集高保真度的偏好数据是必要的,这些数据能支持训练出有用的奖励模型。该数据集通常包含(提示、选中回复、驳回回复)元组,它将成为下一阶段——训练奖励模型本身的输入。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造