趋近智
基于价值的方法,如DQN,在学习动作价值方面表现出色,但可能面临一些问题,尤其是在连续动作空间的环境中。另一方面,策略梯度方法,如REINFORCE,直接学习策略,使它们适合连续动作,但它们的学习过程可能受到梯度估计高方差的阻碍。这种方差出现的原因是学习信号通常基于整个回合的回报,而回报可能因所采取的动作而大幅波动。
如果我们能以某种方式结合这两种方法的优点,岂不是非常有效?设想一下,使用策略梯度的直接策略学习能力,并通过基于价值方法的评估性信息来改进学习信号。这正是行动者-评论者(Actor-Critic)架构的背后原因。
核心思想是保持两个不同的组成部分,通常作为独立的神经网络实现(或有时共享较低层):
主要的交互发生在更新步骤。行动者不再基于简单REINFORCE中使用的噪声大、高方差的蒙特卡洛回报(Gt)来更新其策略,而是使用评论者提供的反馈。评论者在学习了价值函数后,能够为行动者动作的质量提供更稳定、低方差的估计。
例如,评论者可能估计状态价值函数 Vϕ(s)。当行动者在状态 s 中采取动作 a,获得奖励 R,并转换到状态 s′ 时,评论者可以计算时序差分(TD)误差:
δt=Rt+γVϕ(st+1)−Vϕ(st)这个TD误差表示结果与评论者之前对状态 st 的预期相比好或坏了多少。正的 δt 表明所采取的动作导致了比预期更好的结果,而负的 δt 则表示相反。
行动者随后使用这个TD误差 δt(或相关衡量指标,如优势函数,我们稍后将讨论)作为信号来更新其策略参数 θ。更新规则如下:
θ←θ+α∇θlogπθ(at∣st)δt同时,评论者更新其自身参数 ϕ 以改进其价值估计,通常使用相同的TD误差来最小化预测不准确性,例如,通过最小化 δt2。
图示行动者、评论者和环境之间的交互。行动者根据状态选择动作,环境提供反馈,评论者评估结果,并向行动者提供学习信号。两个组件都更新其内部参数。
这种协作结构提供了显著的益处:
通过将策略搜索与学到的价值函数结合,行动者-评论者方法提供了一个强大的框架,解决了单独使用任何一种方法的固有局限性。接下来的部分将考察特定的算法,如优势行动者-评论者(A2C)和异步优势行动者-评论者(A3C),它们改进了这种基本结构,以提升性能和效率。
这部分内容有帮助吗?
Oct 22, 2025
修正了此次更新,因为误差是根据当前时间步 t 的价值估计计算的,所以记号必须与该时间步保持一致。
© 2026 ApX Machine Learning用心打造