第一章回顾了强化学习的基本原理以及函数逼近的应用。线性函数逼近器虽然有用,但在处理高维状态空间时往往表现不足,例如屏幕的原始像素输入或复杂的特征向量。为解决这些局限,我们将借助深度神经网络的表达能力。本章将介绍深度Q网络 (DQN),这是一种核心算法,它成功地将Q学习与深度神经网络结合,在有难度的任务上取得了出色的表现。我们将研究使训练稳定有效的核心组成部分,即经验回放和目标网络的应用。在标准DQN算法的基础上,我们将分析几项重要的改进,旨在解决其具体不足:双重DQN (DDQN): 减轻Q学习更新中固有的高估偏差。对偶网络架构: 将Q值分解为状态值和动作优势,以实现更好的泛化能力。优先经验回放 (PER): 通过侧重于信息量更大的转换来提高样本效率。分布强化学习原理: 不再仅仅关注期望值,而是对回报的完整分布进行建模。彩虹DQN: 将多项DQN改进组合成一个单一的、高性能的智能体。您将了解这些技术背后的运作原理,并学习如何实现DQN及其主要变体。