Actor-Critic Algorithms, Vijay R. Konda and John N. Tsitsiklis, 2000Advances in Neural Information Processing Systems, Vol. 12 (The MIT Press) - 一篇提出并形式化Actor-Critic框架的论文,阐明了学习到的价值函数(评论家)如何作为策略梯度方法的有效基线。
Spinning Up in Deep RL, Joshua Achiam, 2018-2023 (OpenAI) - OpenAI提供的易于理解的在线资源,提供了策略梯度方法的实用解释和实现,包括深度强化学习中基线和优势估计的运用。