趋近智
第一章提到了将基本Q学习和SARSA应用于状态空间庞大或连续的问题所面临的难题。为每个可能的状态-动作对存储Q值在计算上变得不可行,并且使得泛化到未见过状态变得困难。
为了解决这个规模化问题,我们转向函数逼近。本章将介绍深度Q网络(DQN),这是一项重要进展,它使用深度神经网络 (neural network)来估计动作值函数。这使得强化学习 (reinforcement learning)(RL)智能体能够在高维输入环境中有效学习,例如游戏屏幕图像。
我们将考察神经网络如何取代传统的Q表,以及使这种结合稳定有效的具体技术。你将了解到:
完成本章后,你将明白DQN的运行原理,并通过为标准强化学习环境构建一个DQN智能体来获得实践经验。
2.1 函数近似的简介
2.2 使用神经网络进行Q值近似
2.3 DQN 算法架构
2.4 经验回放机制
2.5 固定Q目标 (目标网络)
2.6 DQN训练的损失函数
2.7 动手实践:在CartPole上实现DQN