所有课程

强化学习导论

章节 1: 强化学习基本原理

什么是强化学习？

智能体与环境

状态、动作与奖励

策略：将状态映射到动作

强化学习工作流程：交互循环

强化学习任务类型：回合制与连续制

强化学习与其他学习类型的比较

为强化学习搭建Python环境

第 1 章测验

章节 2: 马尔可夫决策过程 (MDPs)

序贯决策建模

MDP的正式定义

状态转移概率

回报：未来累积奖励

未来奖励的折现

策略与价值函数 (Vπ, Qπ)

寻找最优策略

第 2 章测验

章节 3: 估算值函数

贝尔曼期望方程

贝尔曼最优方程

求解贝尔曼方程 (概述)

动态规划：策略迭代

动态规划：值迭代

动态规划的局限性

第 3 章测验

章节 4: 蒙特卡洛方法

基于完整回合的学习

蒙特卡洛预测：估计 Vπ

蒙特卡洛控制：估算 Qπ

同策略学习与异策略学习对比

无非固定起点MC控制

同策略首次访问蒙特卡洛控制的实现

离策略蒙特卡洛预测与控制简介

实践：实现蒙特卡洛预测

第 4 章测验

章节 5: 时序差分学习

从不完整的回合中学习

TD(0) 预测：估计 Vπ

TD学习相对于蒙特卡洛方法的优势

SARSA：同策略TD控制

Q学习：离策略TD控制

比较 SARSA 与 Q-学习

动手实践：Q-学习的实现

第 5 章测验

章节 6: 强化学习中的函数逼近

处理大规模状态空间

价值函数近似 (VFA)

状态表示的特征向量

价值函数逼近的线性方法

用于参数学习的梯度下降

半梯度 TD 方法

使用神经网络进行价值函数近似

实践：应用线性价值函数近似

第 6 章测验

章节 7: 深度Q网络(DQN)简介

Q学习与深度学习的结合

强化学习中神经网络的难题

经验回放机制

固定Q目标 (目标网络)

DQN 算法结构

DQN 的网络结构设计考量

动手实践：构建一个基础DQN

第 7 章测验

章节 8: 策略梯度方法简介

直接学习策略

策略梯度定理 (理念)

REINFORCE 算法

降低方差的基线

Actor-Critic 方法概述

对比基于价值和基于策略的方法

实践：实现 REINFORCE

第 8 章测验

DQN 算法结构

这部分内容有帮助吗？

参考文献

Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller, 2015 Nature, Vol. 518 DOI: 10.1038/nature14236 - 这篇原始论文介绍了深度Q网络（DQN）算法，展示了深度神经网络如何通过经验回放和目标网络从原始像素输入学习玩Atari游戏。
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 一本标准的教科书，对强化学习做了全面的介绍，包括对DQN基础Q学习的清晰解释。(第二版)
Spinning Up in Deep RL, Joshua Achiam, 2018 (OpenAI) - OpenAI提供的实用在线资源，对DQN等深度强化学习算法及其实现提供了清晰的解释。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 这本书介绍了深度学习的基础知识，为理解DQN等算法中使用的神经网络组件提供了必要的背景。

© 2025 ApX Machine Learning用心打造