趋近智
基础策略梯度方法,例如 REINFORCE,其梯度估计常存在高方差问题,导致学习缓慢或不稳定。本章介绍 Actor-Critic 方法,这是一类旨在应对此局限性的算法。其核心思想是维持两个组成部分:一个 actor(行动者),它学习策略 ;以及一个 critic(评估者),它学习价值函数(例如 或 )来评估 actor 的行动并提供低方差的梯度信号。
你将学习在此框架基础上的一些重要进展:
在本章结束时,你将理解这些高级算法的原理,并准备好实现它们以解决更复杂的强化学习问题。
3.1 基本策略梯度面临的挑战
3.2 行动者-评论者架构基本原理
3.3 降低方差的基线
3.4 优势 Actor-Critic (A2C) 和 A3C
3.5 广义优势估计 (GAE)
3.6 深度确定性策略梯度 (DDPG)
3.7 信任区域策略优化 (TRPO)
3.8 近端策略优化 (PPO)
3.9 软演员-评论家 (SAC)
3.10 演员-评论家方法实现实践
© 2026 ApX Machine Learning用心打造