再谈试错-利用权衡

你在强化学习 (reinforcement learning)学习过程中，一直会遇到试错与利用之间的基本矛盾。智能体必须利用其现有知识来最大化即时奖励，但它也必须对环境进行试探，以期为将来发现潜在的更优策略。如果总是选择利用已知最优动作，可能会导致陷入次优的常规做法，从而错失通过起初不那么确定的路径才能获得的显著更高的奖励。反之，过度试探而不利用已学到的知识，则会导致性能低下和收敛缓慢。

例如 $\epsilon$ -贪心法这样的简单策略提供了一种平衡探索与利用权衡的基本机制。通过在大多数时间采取已知最优动作（以 $1-\epsilon$ 的概率），并偶尔采取随机动作（以 $\epsilon$ 的概率），智能体确保了一定程度的试探。尽管对小问题足够，但当应用于复杂、高维环境时，这种方法却暴露出其局限性。

为什么这种看似简单的平衡在高级场景中变得如此具有挑战性？

庞大的状态和动作空间： 当处理潜在数百万或数十亿的状态（例如，来自图像输入）或连续动作空间（例如，机器人控制）时，随机试探变得极其低效。随着空间增大，通过纯粹的随机动作偶然发现环境中某个有意义的、未曾触及的部分的可能性迅速降低。想象一下，在一个大型城市中仅仅通过随机游荡来找到一个特定位置；这不太可能奏效。
稀疏奖励： 许多实际问题提供的奖励非常稀少。智能体可能要执行数百或数千个动作后才能收到任何反馈，无论是正面的还是负面的。在这种情况下，像 $\epsilon$ -贪心法这样无方向的试探策略，不太可能纯粹凭运气发现有奖励的轨迹。智能体需要更多指导，以试探那些可能提供信息或奖励的区域。
非平稳性： 在多智能体环境中（稍后会讲到）或随时间变化的环境中，“最优”动作可能会发生变化。如果环境动态或其他智能体的行为发生变化，仅仅依赖过去知识（利用）可能有害。持续的、智能化的试探对于适应是必需的。
欺骗性局部最优： 有些环境包含“奖励圈套”，在这些环境中，最初的试探导致一个局部最优策略，显著劣于全局最优。纯粹的贪心或 $\epsilon$ -贪心智能体很容易被困住，它会认为自己找到了最佳方案，因为附近的替代方案更差，而实际上在策略空间中更远的地方存在更好的解决方案。

考虑随机试探的低效性与更具方向性的方法相比：

状态空间中的路径。随机试探（红色）可能会绕很多弯路，而有方向的试探（蓝色）则有可能找到一条通往目标状态（绿色）的更有效的路径。

$\epsilon$ -贪心策略平等对待所有未曾尝试的动作。它不区分从未尝试过的动作和尝试过一次但结果不佳的动作。它缺乏足够的精巧性来优先试探那些对其最不确定，或根据某种启发式看起来最有希望的动作或状态。

因此，对于需要高性能和样本效率的复杂问题，我们需要更高级的试探策略。这些方法超越了简单的随机性，并融入了以下原则：

面对不确定性保持乐观： 优先选择结果不确定但潜在回报较高的动作。
信息获取： 积极尝试减少对环境的不确定性。
内在激励： 创建内部“好奇心”信号，以引导试探趋向新颖或意想不到的情况。

本章研究了几种此类技术。通过理解如何智能地引导试探，即使面对庞大的状态空间、稀疏的奖励和复杂的动态，你也可以设计出能够高效学习有效策略的智能体。以下各节会考察具体的算法，这些算法实现了更精密的策略来应对试错-利用权衡。

这部分内容有帮助吗？

参考文献

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (A Bradford Book, The MIT Press) - 一本全面而权威的教材，提供了强化学习的基础知识，包括探索-利用权衡以及像 ε-贪婪和上置信界（UCB）算法这样的基本探索策略。
Intelligent Exploration in Deep Reinforcement Learning: A Review, Ran Zhao, Zheng Fang, Guanjun Liu, Chenbo Zhang, Yuanhao Li, and Wei Ding, 2021 IEEE Transactions on Emerging Topics in Computational Intelligence, Vol. 5 (IEEE) DOI: 10.1109/TETCI.2021.3087265 - 一篇全面回顾深度强化学习中高级探索策略的论文，专门针对大规模和复杂环境中的挑战。
Curiosity-driven Exploration by Self-supervised Prediction, Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell, 2017 Proceedings of the 34th International Conference on Machine Learning (ICML), Vol. 70 (PMLR) - 提出了一种具有广泛影响力的内在动机方法，利用特征的自监督预测来生成探索奖励，引导智能体进入新颖且令人惊讶的状态。
Near-Optimal Regret Bounds for Reinforcement Learning, Thomas Jaksch, Ronald Ortner, and Peter Auer, 2010 Journal of Machine Learning Research, Vol. 11 - 提出 UCRL2 算法，这是一种在理论上有严谨依据的方法，通过应用不确定性面前乐观主义原则，在未知有限马尔可夫决策过程（MDP）中实现了接近最优的遗憾界。