所有课程

强化学习中级技术

章节 1: 回顾强化学习基本原理

强化学习问题设置

马尔可夫决策过程 (MDP) 回顾

价值函数与贝尔曼方程

表格型求解方法：Q学习和SARSA

表格方法的局限性

第 1 章测验

章节 2: 深度Q网络 (DQN)

函数近似的简介

使用神经网络进行Q值近似

DQN 算法架构

经验回放机制

固定Q目标 (目标网络)

DQN训练的损失函数

动手实践：在CartPole上实现DQN

第 2 章测验

章节 3: DQN的改进与变体

Q-学习中的估值过高问题

双重DQN (DDQN)

对偶网络架构

DQN改进的结合

优先经验回放 (简要概述)

实践：实现双DQN

第 3 章测验

章节 4: 策略梯度方法

基于价值方法的局限性

策略直接参数化

策略梯度定理

REINFORCE 算法

理解策略梯度中的方差

方差减少的基线

动手实践：实现REINFORCE算法

第 4 章测验

章节 5: Actor-Critic 方法

结合策略和价值评估

Actor-Critic 架构概述

优势演员-评论家 (A2C)

异步优势参与者-评价者算法 (A3C)

Actor-Critic 实现的考量

对比：REINFORCE 与 A2C/A3C

实践：开发 A2C 实现

第 5 章测验

对偶网络架构

这部分内容有帮助吗？

参考文献

Dueling Network Architectures for Deep Reinforcement Learning, Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas, 2016 International Conference on Machine Learning (ICML) DOI: 10.48550/arXiv.1511.06581 - 介绍了Dueling网络架构，详细阐述了其结构、优势和稳定化技术。
Reinforcement Learning: An Introduction (2nd Edition), Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 提供了强化学习的全面概述，其中包括关于Dueling网络作为DQN改进的专门章节。

© 2025 ApX Machine Learning用心打造