趋近智
第一章回顾了强化学习 (reinforcement learning)的基本原理以及函数逼近的应用。线性函数逼近器虽然有用,但在处理高维状态空间时往往表现不足,例如屏幕的原始像素输入或复杂的特征向量 (vector)。为解决这些局限,我们将借助深度神经网络 (neural network)的表达能力。
本章将介绍深度Q网络 (DQN),这是一种核心算法,它成功地将Q学习与深度神经网络结合,在有难度的任务上取得了出色的表现。我们将研究使训练稳定有效的核心组成部分,即经验回放和目标网络的应用。
在标准DQN算法的基础上,我们将分析几项重要的改进,旨在解决其具体不足:
您将了解这些技术背后的运作原理,并学习如何实现DQN及其主要变体。
2.1 线性函数近似的局限性
2.2 深度Q网络 (DQN) 算法
2.3 经验回放机制
2.4 用于训练稳定性的目标网络
2.5 双重深度Q网络 (DDQN)
2.6 对偶网络架构
2.7 优先经验回放 (PER)
2.8 分布强化学习原理
2.9 Rainbow DQN 集成
2.10 DQN变体实现动手实践