趋近智
在上一章中,我们审视了蒙特卡洛方法,这类方法只在一个完整的回合结束后才更新价值估计。这意味着必须等待最终结果确定,该回合的学习才能进行。
时序差分(TD)学习提供了一种不同的方式,它使得每一步之后都能进行更新。
TD方法直接从经验中学习,这一点与蒙特卡洛方法相似。然而,与蒙特卡洛不同的是,它们部分基于其他当前已学到的估计来更新价值估计,而无需等待回合的最终结果。这种技术被称为自举。它使得TD方法能够从不完整的回合中学习,并且在实际中通常比蒙特卡洛方法收敛更快。
本章将介绍时序差分学习的基础内容。我们将涉及:
在本章结束时,你将了解TD方法如何运作,并能够实现核心的TD算法,用于预测和控制问题。
5.1 从不完整的回合中学习
5.2 TD(0) 预测:估计 Vπ
5.3 TD学习相对于蒙特卡洛方法的优势
5.4 SARSA:同策略TD控制
5.5 Q学习:离策略TD控制
5.6 比较 SARSA 与 Q-学习
5.7 期望SARSA
5.8 动手实践:Q-学习的实现
© 2026 ApX Machine Learning用心打造