趋近智
蒙特卡洛(MC)方法通过平均完成整个回合后观测到的回报来估计价值函数。这就像是,只有在你到达最终目的地并清点所有经历后,才能判断一次多日徒步旅行的质量。这种方法虽然可行,但有一个主要限制:学习只能在回合结束后才进行。对于非常长甚至连续的任务(永不结束的任务),等待“最终结果”是不实际或不可能的。
时序差分(TD)学习提供了一种不同的方法。TD方法不是等到回合结束才得知最终回报 Gt,而是根据获得的即时奖励 Rt+1 以及下一状态 St+1 的当前估计价值来更新状态 St 的价值估计。
设想你在状态 St,采取动作 At,获得奖励 Rt+1,并到达状态 St+1。
这种部分基于另一个已学习估计来更新一个估计的过程称为自举(bootstrapping)。TD 学习使用自举,因为对 V(St) 的更新依赖于现有的 V(St+1) 估计。这就像你根据到达城市 B 的情况,并利用你当前对从城市 B 到城市 Z 旅行时间的估计来调整你从城市 A 到城市 Z 的估计旅行时间,而不是等到你实际到达城市 Z。
更新时机的比较。MC 方法会等到回合结束(状态 ST)才计算实际回报 Gt,并更新该回合中访问过的状态的价值。TD 方法在访问一个状态后(例如 V(S0)),会在下一步(t+1)很快对其价值进行更新,使用观测到的奖励(R1)和对下一状态价值的当前估计(V(S1))。
这种从每一步学习,而不是等待回合结束的能力,赋予了 TD 方法一些优点:
TD 学习结合了蒙特卡洛方法和动态规划(DP)的思想。与 MC 类似,它直接从原始经验中学习,而不需要环境动态的模型(即转移概率 p(s′,r∣s,a))。与 DP 类似,它使用自举来基于其他估计更新估计值。这种结合使得 TD 方法成为现代强化学习的重要组成部分。
在接下来的部分中,我们将对这一思路进行形式化,首先介绍用于估计状态价值的 TD(0) 算法,然后转向学习动作价值的 SARSA 和 Q-learning 等控制算法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造