趋近智
蒙特卡洛(MC)方法通过对完整回报求平均,提供了一种从经验中学习的直观方式,而时序差分(TD)学习通常表现出几个显著的优势,使其在许多强化学习 (reinforcement learning)场景中成为一种更广泛使用的方法。
主要区别在于学习更新发生的时机。MC方法需要等到一个回合结束,确定回报后,才能更新该回合中访问过的状态的任何价值估计。
MC更新(左)使用整个回合的结果,而TD更新(右)仅使用下一个奖励和下一个状态的估计价值。
相比之下,TD方法仅在一个时间步后就更新其价值估计,使用观测到的奖励和下一个状态价值的当前估计。例如,TD(0)更新规则如下所示:
这种从单个转移()中学习的能力具有重要的影响:
TD学习天生适合在线学习。智能体可以观测一个转移、收到奖励、移到下一个状态,并立即更新刚刚离开的状态的价值。这使得智能体在与环境交互时能够“即时”调整其知识和潜在行为。
MC方法通常离线运行。首先收集整个回合,然后计算回报,最后更新该回合中所有访问状态的价值估计。这需要存储回合轨迹(状态、动作、奖励)直到终止。虽然离线更新是可行的,但对于需要实时适应或有内存限制的系统,在线学习通常更可取。
尽管MC更新使用实际的采样回报,这是真实价值的无偏估计,但该回报可能具有高方差。最终结果取决于潜在的长串动作、状态转移和奖励,每个都带来随机性。目标更新值的高方差会使学习过程嘈杂且收敛缓慢。
TD方法朝向一个TD目标更新:(用于价值预测)或(用于Q学习)。该目标仅依赖于一个随机奖励和一个随机转移到。价值估计或本身用于更新(这就是自举)。
因为TD目标依赖的随机事件比完整的MC回报少,所以它通常具有低得多的方差。但代价是:TD目标是有偏的。它使用当前的估计,这可能不完全准确,特别是在学习早期。
这引入了经典的偏差-方差权衡:
实践中,TD更新的较低方差通常导致比MC方法更快的收敛,尽管存在偏差。学习过程趋于更平滑,对单个嘈杂回合不那么敏感。
总而言之,TD学习相对于MC方法的主要优势包括:
这些好处使SARSA和Q学习等TD方法成为强化学习 (reinforcement learning)中的根本算法,特别适用于回合很长、不存在回合或在线适应很重要的场景。然而,也值得记住的是,TD中自举引入的偏差有时会引起问题,特别是与函数逼近结合时,这是一个我们稍后会讨论的话题。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•