Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (The MIT Press) - 一本权威教科书,详细介绍了时序差分学习、SARSA、Q-学习以及策略内和策略外方法的区别,并包含如悬崖行走等说明性示例。
Q-learning, Christopher J. C. H. Watkins and Peter Dayan, 1992Machine Learning, Vol. 8DOI: 10.1007/BF00992698 - 介绍Q-学习的原始学术论文,这是一种基础的策略外时序差分控制算法。
On-line Q-learning using connectionist systems, Gavin A. Rummery and Mahesan Niranjan, 1994CUED/F-INFENG/TR 166, Cambridge University Engineering Department, Technical Report (Cambridge University Engineering Department) - 这份技术报告介绍了后来被明确命名为SARSA的算法,这是一种策略内时序差分控制方法。