Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 这本教科书是对强化学习的权威介绍,全面涵盖了包括REINFORCE在内的策略梯度方法,并详细解释了Actor-Critic算法及其优势。
Actor-Critic Algorithms, Vijay R. Konda, John N. Tsitsiklis, 1999Advances in Neural Information Processing Systems, Vol. 12 (MIT Press) - 一篇基础论文,提供了Actor-Critic算法的早期理论处理,通过形式化其结构和收敛特性,为后续发展奠定了基础。