趋近智

所有课程

强化学习导论

章节 1: 强化学习基本原理

什么是强化学习？

智能体与环境

状态、动作与奖励

策略：将状态映射到动作

强化学习工作流程：交互循环

强化学习任务类型：回合制与连续制

强化学习与其他学习类型的比较

为强化学习搭建Python环境

第 1 章测验

章节 2: 马尔可夫决策过程 (MDPs)

序贯决策建模

MDP的正式定义

状态转移概率

回报：未来累积奖励

未来奖励的折现

策略与价值函数 (Vπ, Qπ)

寻找最优策略

第 2 章测验

章节 3: 估算值函数

贝尔曼期望方程

贝尔曼最优方程

求解贝尔曼方程 (概述)

动态规划：策略迭代

动态规划：值迭代

动态规划的局限性

第 3 章测验

章节 4: 蒙特卡洛方法

基于完整回合的学习

蒙特卡洛预测：估计 Vπ

蒙特卡洛控制：估算 Qπ

同策略学习与异策略学习对比

无非固定起点MC控制

同策略首次访问蒙特卡洛控制的实现

离策略蒙特卡洛预测与控制简介

实践：实现蒙特卡洛预测

第 4 章测验

章节 5: 时序差分学习

从不完整的回合中学习

TD(0) 预测：估计 Vπ

TD学习相对于蒙特卡洛方法的优势

SARSA：同策略TD控制

Q学习：离策略TD控制

比较 SARSA 与 Q-学习

动手实践：Q-学习的实现

第 5 章测验

章节 6: 强化学习中的函数逼近

处理大规模状态空间

价值函数近似 (VFA)

状态表示的特征向量

价值函数逼近的线性方法

用于参数学习的梯度下降

半梯度 TD 方法

使用神经网络进行价值函数近似

实践：应用线性价值函数近似

第 6 章测验

章节 7: 深度Q网络(DQN)简介

Q学习与深度学习的结合

强化学习中神经网络的难题

经验回放机制

固定Q目标 (目标网络)

DQN 算法结构

DQN 的网络结构设计考量

动手实践：构建一个基础DQN

第 7 章测验

章节 8: 策略梯度方法简介

直接学习策略

策略梯度定理 (理念)

REINFORCE 算法

降低方差的基线

Actor-Critic 方法概述

对比基于价值和基于策略的方法

实践：实现 REINFORCE

第 8 章测验

章节 6: 强化学习中的函数逼近

到目前为止，我们已经学习了蒙特卡洛和时序差分学习等方法，这些方法都依赖于维护一个将每个状态或状态-动作对映射到值的表格。这种方法适用于状态数量可控的问题。然而，许多实际问题涉及的状态空间非常庞大，甚至是连续的，这使得表格方法由于内存和计算要求而变得不切实际。

本章将通过引入函数逼近来解决这一挑战。我们不再为每个状态存储精确的值，而是使用一个参数 (parameter)化函数来逼近值函数，该函数的参数数量远少于状态数量。我们的目标是从已见过的状态泛化到未见过的状态。

你将学习：

为什么函数逼近对于大规模强化学习 (reinforcement learning)问题是必需的。
如何使用适合函数逼近器的特征向量 (vector)来表示状态。
逼近值函数的方法，最初侧重于线性函数。
如何使用梯度下降 (gradient descent)，特别是半梯度方法，基于强化学习经验更新逼近器的参数。
非线性函数逼近器（例如神经网络 (neural network)）的介绍，以捕捉更复杂的值函数形状。

到本章结束时，你将理解如何将强化学习算法应用于状态空间太大而无法用简单表格处理的问题。

课程章节

6.1 处理大规模状态空间
6.2 价值函数近似 (VFA)
6.3 状态表示的特征向量
6.4 价值函数逼近的线性方法
6.5 用于参数学习的梯度下降
6.6 半梯度 TD 方法
6.7 使用神经网络进行价值函数近似
6.8 实践：应用线性价值函数近似

© 2026 ApX Machine Learning