趋近智
所有课程
4.1 RLHF背景下的PPO算法
4.2 策略网络与价值网络的实现
4.3 KL散度惩罚的作用
4.4 优势和回报的计算
4.5 LLM的PPO超参数调整
4.6 常用 PPO 实现库 (TRL)
4.7 PPO训练不稳定性故障排除
4.8 实践:实现PPO更新步骤
© 2025 ApX Machine Learning