趋近智
在之前的章节中,我们回顾了基于价值的方法,例如学习动作价值的深度Q网络(DQN),以及直接优化策略的策略梯度方法,例如REINFORCE。这两种方法各有优缺点。基于价值的方法可以提高样本效率,但在连续动作空间中表现不佳。策略梯度方法可以自然地处理连续动作,但其梯度估计往往方差较大。
本章将介绍Actor-Critic方法,这是一类结合了这两种方法特点的算法。您将了解这些方法如何使用两个组成部分:
我们将分析评论者的评估如何为执行者提供方差更小的学习信号,旨在与纯策略梯度方法相比,实现更稳定、更高效的训练。我们将学习优势Actor-Critic (A2C) 及其异步变体 (A3C) 等具体实现,侧重于它们的架构、更新规则和实际考量。到本章结束时,您将理解Actor-Critic方法背后的原理,以及它们如何解决早期技术的一些局限性。
5.1 结合策略和价值评估
5.2 Actor-Critic 架构概述
5.3 优势演员-评论家 (A2C)
5.4 异步优势参与者-评价者算法 (A3C)
5.5 Actor-Critic 实现的考量
5.6 对比:REINFORCE 与 A2C/A3C
5.7 实践:开发 A2C 实现