趋近智
在确定了模拟人类偏好的方法之后,下一步是使用这个信号直接改进语言模型的表现。本章主要关注强化学习 (reinforcement learning)(RL)的微调 (fine-tuning)阶段,特别是采用近端策略优化(PPO)。PPO 是一种策略梯度方法,常用于 RLHF 中,以优化语言模型策略,使其符合学到的奖励模型,同时确保不会与原始的监督微调模型偏离过远。
您将学习如何在大型语言模型的环境中应用 PPO 算法。我们将分析策略网络和价值网络的设置,KL散度惩罚()对于训练稳定的重要作用,计算广义优势估计(GAE)等优势值的方法,以及超参数 (parameter) (hyperparameter)调整的实际考量。我们还将查看使用 Hugging Face 的 TRL 等库进行实现的例子,并讨论训练不稳定等常见挑战。目标是让您掌握实现和管理 RLHF 流程中基于 PPO 的优化阶段的知识。
4.1 RLHF背景下的PPO算法
4.2 策略网络与价值网络的实现
4.3 KL散度惩罚的作用
4.4 优势和回报的计算
4.5 LLM的PPO超参数调整
4.6 常用 PPO 实现库 (TRL)
4.7 PPO训练不稳定性故障排除
4.8 实践:实现PPO更新步骤
© 2026 ApX Machine Learning用心打造