所有课程

强化学习导论

章节 1: 强化学习基本原理

什么是强化学习？

智能体与环境

状态、动作与奖励

策略：将状态映射到动作

强化学习工作流程：交互循环

强化学习任务类型：回合制与连续制

强化学习与其他学习类型的比较

为强化学习搭建Python环境

第 1 章测验

章节 2: 马尔可夫决策过程 (MDPs)

序贯决策建模

MDP的正式定义

状态转移概率

回报：未来累积奖励

未来奖励的折现

策略与价值函数 (Vπ, Qπ)

寻找最优策略

第 2 章测验

章节 3: 估算值函数

贝尔曼期望方程

贝尔曼最优方程

求解贝尔曼方程 (概述)

动态规划：策略迭代

动态规划：值迭代

动态规划的局限性

第 3 章测验

章节 4: 蒙特卡洛方法

基于完整回合的学习

蒙特卡洛预测：估计 Vπ

蒙特卡洛控制：估算 Qπ

同策略学习与异策略学习对比

无非固定起点MC控制

同策略首次访问蒙特卡洛控制的实现

离策略蒙特卡洛预测与控制简介

实践：实现蒙特卡洛预测

第 4 章测验

章节 5: 时序差分学习

从不完整的回合中学习

TD(0) 预测：估计 Vπ

TD学习相对于蒙特卡洛方法的优势

SARSA：同策略TD控制

Q学习：离策略TD控制

比较 SARSA 与 Q-学习

动手实践：Q-学习的实现

第 5 章测验

章节 6: 强化学习中的函数逼近

处理大规模状态空间

价值函数近似 (VFA)

状态表示的特征向量

价值函数逼近的线性方法

用于参数学习的梯度下降

半梯度 TD 方法

使用神经网络进行价值函数近似

实践：应用线性价值函数近似

第 6 章测验

章节 7: 深度Q网络(DQN)简介

Q学习与深度学习的结合

强化学习中神经网络的难题

经验回放机制

固定Q目标 (目标网络)

DQN 算法结构

DQN 的网络结构设计考量

动手实践：构建一个基础DQN

第 7 章测验

章节 8: 策略梯度方法简介

直接学习策略

策略梯度定理 (理念)

REINFORCE 算法

降低方差的基线

Actor-Critic 方法概述

对比基于价值和基于策略的方法

实践：实现 REINFORCE

第 8 章测验

同策略学习与异策略学习对比

这部分内容有帮助吗？

参考文献

Reinforcement Learning: An Introduction, Richard S. Sutton, Andrew G. Barto, 2018 (MIT Press) - 这本强化学习权威教材全面介绍了策略内和策略外蒙特卡洛方法，包括重要性采样。
RL Course by David Silver - Lecture 4: Model-Free Control, David Silver, 2015 - 本讲座清晰地解释并可视化了基于蒙特卡洛方法的策略内和策略外控制算法。
CS234: Reinforcement Learning (Winter 2023) - Lecture 4: Model-Free Control, Emma Brunskill, 2023 (Stanford University) - 这份来自顶尖大学课程的讲义提供了关于策略内和策略外学习的结构化解释，并考虑了实际应用。

© 2025 ApX Machine Learning用心打造