所有课程

强化学习中级技术

章节 1: 回顾强化学习基本原理

强化学习问题设置

马尔可夫决策过程 (MDP) 回顾

价值函数与贝尔曼方程

表格型求解方法：Q学习和SARSA

表格方法的局限性

第 1 章测验

章节 2: 深度Q网络 (DQN)

函数近似的简介

使用神经网络进行Q值近似

DQN 算法架构

经验回放机制

固定Q目标 (目标网络)

DQN训练的损失函数

动手实践：在CartPole上实现DQN

第 2 章测验

章节 3: DQN的改进与变体

Q-学习中的估值过高问题

双重DQN (DDQN)

对偶网络架构

DQN改进的结合

优先经验回放 (简要概述)

实践：实现双DQN

第 3 章测验

章节 4: 策略梯度方法

基于价值方法的局限性

策略直接参数化

策略梯度定理

REINFORCE 算法

理解策略梯度中的方差

方差减少的基线

动手实践：实现REINFORCE算法

第 4 章测验

章节 5: Actor-Critic 方法

结合策略和价值评估

Actor-Critic 架构概述

优势演员-评论家 (A2C)

异步优势参与者-评价者算法 (A3C)

Actor-Critic 实现的考量

对比：REINFORCE 与 A2C/A3C

实践：开发 A2C 实现

第 5 章测验

优势演员-评论家 (A2C)

这部分内容有帮助吗？

参考文献

Asynchronous Methods for Deep Reinforcement Learning, Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu, 2016 ICML 2016 DOI: 10.48550/arXiv.1602.01783 - 介绍了异步优势Actor-Critic (A3C)，它是A2C的异步前身，详细阐述了优势函数、共享网络架构和并行学习策略。
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 提供了Actor-Critic方法、策略梯度、价值函数以及使用基线进行方差减小的基础概念。请参阅第13章。
Spinning Up in Deep RL: Actor-Critic, Joshua Achiam, 2018 (OpenAI) - 一份实用指南，解释了Actor-Critic算法（包括A2C）的实现细节、架构、损失函数和训练注意事项。

© 2025 ApX Machine Learning用心打造