趋近智
所有课程
3.1 基本策略梯度面临的挑战
3.2 行动者-评论者架构基本原理
3.3 降低方差的基线
3.4 优势 Actor-Critic (A2C) 和 A3C
3.5 广义优势估计 (GAE)
3.6 深度确定性策略梯度 (DDPG)
3.7 信任区域策略优化 (TRPO)
3.8 近端策略优化 (PPO)
3.9 软演员-评论家 (SAC)
3.10 演员-评论家方法实现实践
© 2025 ApX Machine Learning