趋近智
策略梯度方法,例如 REINFORCE,提供了一种直接优化参数 (parameter)化策略的方式。然而,这些方法在实践中,尤其是在复杂环境中,常常面临显著的实际困难。应对这些挑战推动了更先进的 Actor-Critic 算法的创建。
回顾源自策略梯度定理的基本策略梯度更新。对于表示预期总回报的目标函数 ,梯度估计如下:
此处, 是由遵循策略 生成的轨迹 ,而 是从时间步 开始的折扣回报。实际操作中,这个期望值通过蒙特卡洛采样来近似,即对使用当前策略 收集的多个轨迹的梯度分量进行平均。
像 REINFORCE 这样的基本策略梯度方法最主要的问题是梯度估计的高方差。这种方差直接源于使用蒙特卡洛回报 作为策略梯度项 的缩放因子。
思考为什么 会有噪声:
这种高方差意味着从有限批次的轨迹中获得的梯度估计可能非常嘈杂。估计的梯度方向可能与真实梯度方向相去甚远,导致以下几个问题:
学习进展的示意性比较,包括高方差梯度更新(基本策略梯度典型情况)与更平滑、低方差的更新。高方差可能导致不稳定且总体改进缓慢。
高方差直接导致了样本效率低下。因为每个采样轨迹都提供了如此嘈杂的梯度估计,必须在当前策略下收集大量轨迹才能获得一个合理准确的更新方向。这使得学习在交互时间和数据需求方面变得昂贵,特别是与某些基于价值的方法相比,这些方法可以凭借自举从单个转移中更有效地学习(尽管自举会引入其自身的偏差)。
此外,标准 REINFORCE 通常会等到回合结束才计算回报 并执行更新。这意味着学习信号被延迟,并且中间奖励的信息未能像时序差分 (TD) 方法那样及时使用。
另一个相关的困难是信用分配问题。基本 REINFORCE 算法根据轨迹的总回报 (或通常只是 )来更新轨迹中所有已采取动作的概率。如果一条轨迹产生了很高的总回报,那么该轨迹中的所有动作都会得到强化,即使其中一些特定动作实际上是有害的,但被后来的幸运情况或良好动作所抵消。相反,单个导致整体回报不佳的坏动作可能会不公平地惩罚之前的良好动作。
使用从当前时间步开始的回报 ,而不是总回报 ,通过仅根据后续奖励强化动作来帮助缓解此问题。然而, 仍然汇集了可能多个时间步的奖励,这使得很难单独判断动作 的即时后果。方差问题依然存在,因为 仍然是对动作真实价值的带噪声估计。
这些挑战,即高方差、样本效率低下和困难的信用分配,使得基本策略梯度形式需要改进。Actor-Critic 方法,我们接下来会进行研究,通过引入一个已学习的价值函数(评论家)来直接解决高方差问题,从而提供对行动者动作更稳定和信息量更大的评估,替换或增强嘈杂的蒙特卡洛回报 。这作为开发更稳定和高效的策略优化算法的根本。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•