趋近智
大师班
26.1 RLHF 流程概述
26.2 收集人类偏好数据
26.3 训练奖励模型 (RM)
26.4 近端策略优化 (PPO) 介绍
26.5 RL PPO 微调
26.6 KL散度惩罚的作用
26.7 RLHF中的挑战与考量
26.8 替代方法:直接偏好优化 (DPO)
© 2025 ApX Machine Learning