Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 一本综合性教材,深入解释了策略梯度方法,包括REINFORCE、其局限性以及通过引入Actor-Critic方法来降低方差的概念性过渡。(第2版)
Actor-Critic Algorithms, Vijay R. Konda, John N. Tsitsiklis, 1999Advances in Neural Information Processing Systems, Vol. 12 (The MIT Press) - 提供了Actor-Critic算法的早期理论论述,强调了它们在策略梯度估计中相对于蒙特卡洛方法降低方差的潜在优势。