Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (A Bradford Book, The MIT Press) - 一本全面而权威的教材,提供了强化学习的基础知识,包括探索-利用权衡以及像 ε-贪婪和上置信界(UCB)算法这样的基本探索策略。
Curiosity-driven Exploration by Self-supervised Prediction, Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell, 2017Proceedings of the 34th International Conference on Machine Learning (ICML), Vol. 70 (PMLR) - 提出了一种具有广泛影响力的内在动机方法,利用特征的自监督预测来生成探索奖励,引导智能体进入新颖且令人惊讶的状态。
Near-Optimal Regret Bounds for Reinforcement Learning, Thomas Jaksch, Ronald Ortner, and Peter Auer, 2010Journal of Machine Learning Research, Vol. 11 - 提出 UCRL2 算法,这是一种在理论上有严谨依据的方法,通过应用不确定性面前乐观主义原则,在未知有限马尔可夫决策过程(MDP)中实现了接近最优的遗憾界。