趋近智
尽管深度Q网络(DQN)算法为将神经网络 (neural network)应用于强化学习 (reinforcement learning)任务提供了坚实的基础,但其原始形式仍有改进空间。一个显著的问题是,标准DQN倾向于高估动作值,,这有时会导致次优策略和训练过程中的不稳定。
本章将通过引入DQN框架的关键增强措施来解决这些局限性。你将学到:
在本章结束时,你将明白这些变体如何在原始DQN的基础上构建,以创建更稳定、更有效的智能体,并且你将练习实现双DQN。
3.1 Q-学习中的估值过高问题
3.2 双重DQN (DDQN)
3.3 对偶网络架构
3.4 DQN改进的结合
3.5 优先经验回放 (简要概述)
3.6 实践:实现双DQN