Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (The MIT Press) - 一本基础教材,涵盖了基于价值和策略梯度的强化学习方法,阐述了它们的原理以及策略梯度方法在处理连续动作空间和学习随机策略等场景中的优势。
Continuous Control with Deep Reinforcement Learning, Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, Daan Wierstra, 2015International Conference on Learning Representations (ICLR)DOI: 10.48550/arXiv.1509.02971 - 介绍了深度确定性策略梯度(DDPG),一种专门为连续动作空间设计的算法,直接解决了传统基于价值方法(如DQN)的一个重要局限性。