尽管深度Q网络(DQN)算法为将神经网络应用于强化学习任务提供了坚实的基础,但其原始形式仍有改进空间。一个显著的问题是,标准DQN倾向于高估动作值,$Q(s, a)$,这有时会导致次优策略和训练过程中的不稳定。本章将通过引入DQN框架的关键增强措施来解决这些局限性。你将学到:Q学习和标准DQN中Q值高估问题的起因。双DQN (DDQN) 如何修改更新规则,将动作选择与动作评估分离开来,从而减轻高估偏差。对偶网络架构的原理,它将状态值函数$V(s)$和动作优势函数$A(s, a)$的估计区分开来。这些改进如何结合使用,并对优先经验回放等技术进行简要介绍。在本章结束时,你将明白这些变体如何在原始DQN的基础上构建,以创建更稳定、更有效的智能体,并且你将练习实现双DQN。