所有课程

强化学习导论

章节 1: 强化学习基本原理

什么是强化学习？

智能体与环境

状态、动作与奖励

策略：将状态映射到动作

强化学习工作流程：交互循环

强化学习任务类型：回合制与连续制

强化学习与其他学习类型的比较

为强化学习搭建Python环境

第 1 章测验

章节 2: 马尔可夫决策过程 (MDPs)

序贯决策建模

MDP的正式定义

状态转移概率

回报：未来累积奖励

未来奖励的折现

策略与价值函数 (Vπ, Qπ)

寻找最优策略

第 2 章测验

章节 3: 估算值函数

贝尔曼期望方程

贝尔曼最优方程

求解贝尔曼方程 (概述)

动态规划：策略迭代

动态规划：值迭代

动态规划的局限性

第 3 章测验

章节 4: 蒙特卡洛方法

基于完整回合的学习

蒙特卡洛预测：估计 Vπ

蒙特卡洛控制：估算 Qπ

同策略学习与异策略学习对比

无非固定起点MC控制

同策略首次访问蒙特卡洛控制的实现

离策略蒙特卡洛预测与控制简介

实践：实现蒙特卡洛预测

第 4 章测验

章节 5: 时序差分学习

从不完整的回合中学习

TD(0) 预测：估计 Vπ

TD学习相对于蒙特卡洛方法的优势

SARSA：同策略TD控制

Q学习：离策略TD控制

比较 SARSA 与 Q-学习

动手实践：Q-学习的实现

第 5 章测验

章节 6: 强化学习中的函数逼近

处理大规模状态空间

价值函数近似 (VFA)

状态表示的特征向量

价值函数逼近的线性方法

用于参数学习的梯度下降

半梯度 TD 方法

使用神经网络进行价值函数近似

实践：应用线性价值函数近似

第 6 章测验

章节 7: 深度Q网络(DQN)简介

Q学习与深度学习的结合

强化学习中神经网络的难题

经验回放机制

固定Q目标 (目标网络)

DQN 算法结构

DQN 的网络结构设计考量

动手实践：构建一个基础DQN

第 7 章测验

章节 8: 策略梯度方法简介

直接学习策略

策略梯度定理 (理念)

REINFORCE 算法

降低方差的基线

Actor-Critic 方法概述

对比基于价值和基于策略的方法

实践：实现 REINFORCE

第 8 章测验

TD(0) 预测：估计 Vπ

这部分内容有帮助吗？

参考文献

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (The MIT Press) - 这是强化学习的权威教材，其中有一章详细解释了TD(0)。
RL Course by David Silver - Lecture 4: Temporal Difference Learning, David Silver, 2015 - 这是一个广受好评的视频讲座，清晰地解释了时间差分学习，包括TD(0)。
Learning to Predict by Methods of Temporal Differences, Richard S. Sutton, 1988 Machine Learning, Vol. 3 (Springer) DOI: 10.1007/BF00115009 - 这篇原始论文介绍了时间差分（TD）学习，为TD(0)及其后续算法奠定了基础。

© 2025 ApX Machine Learning用心打造