趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

强化学习中级课程

趋近智

所有课程

强化学习中级技术

章节 1: 回顾强化学习基本原理

强化学习问题设置

马尔可夫决策过程 (MDP) 回顾

价值函数与贝尔曼方程

表格型求解方法：Q学习和SARSA

表格方法的局限性

第 1 章测验

章节 2: 深度Q网络 (DQN)

函数近似的简介

使用神经网络进行Q值近似

DQN 算法架构

经验回放机制

固定Q目标 (目标网络)

DQN训练的损失函数

动手实践：在CartPole上实现DQN

第 2 章测验

章节 3: DQN的改进与变体

Q-学习中的估值过高问题

双重DQN (DDQN)

对偶网络架构

DQN改进的结合

优先经验回放 (简要概述)

实践：实现双DQN

第 3 章测验

章节 4: 策略梯度方法

基于价值方法的局限性

策略直接参数化

策略梯度定理

REINFORCE 算法

理解策略梯度中的方差

方差减少的基线

动手实践：实现REINFORCE算法

第 4 章测验

章节 5: Actor-Critic 方法

结合策略和价值评估

Actor-Critic 架构概述

优势演员-评论家 (A2C)

异步优势参与者-评价者算法 (A3C)

Actor-Critic 实现的考量

对比：REINFORCE 与 A2C/A3C

实践：开发 A2C 实现

第 5 章测验

强化学习中级技术

在您已有的强化学习 (reinforcement learning)知识之上。本课程涵盖重要的中级方法，包括深度Q网络 (DQN)、策略梯度法和Actor-Critic算法。学习运用函数逼近和高级策略来处理更复杂的序列决策问题。包含实践操作指南。

先修课程 具有强化学习初步知识。

级别:

专业级

可获证书:

结业

函数逼近
理解为何及如何使用强化学习中的函数逼近器（如神经网络）。
深度Q网络 (DQN)
实现并理解DQN的组成部分，包括经验回放和目标网络。
DQN变体
学习DQN的改进，例如双重DQN和对决DQN。
策略梯度法
掌握策略梯度背后的理论，并实现REINFORCE算法。
Actor-Critic方法
理解Actor-Critic算法（例如A2C/A3C）的架构和优势。
算法实现
获得实现这些中级强化学习算法的实践经验。

© 2026 ApX Machine Learning