所有课程

强化学习导论

章节 1: 强化学习基本原理

什么是强化学习？

智能体与环境

状态、动作与奖励

策略：将状态映射到动作

强化学习工作流程：交互循环

强化学习任务类型：回合制与连续制

强化学习与其他学习类型的比较

为强化学习搭建Python环境

第 1 章测验

章节 2: 马尔可夫决策过程 (MDPs)

序贯决策建模

MDP的正式定义

状态转移概率

回报：未来累积奖励

未来奖励的折现

策略与价值函数 (Vπ, Qπ)

寻找最优策略

第 2 章测验

章节 3: 估算值函数

贝尔曼期望方程

贝尔曼最优方程

求解贝尔曼方程 (概述)

动态规划：策略迭代

动态规划：值迭代

动态规划的局限性

第 3 章测验

章节 4: 蒙特卡洛方法

基于完整回合的学习

蒙特卡洛预测：估计 Vπ

蒙特卡洛控制：估算 Qπ

同策略学习与异策略学习对比

无非固定起点MC控制

同策略首次访问蒙特卡洛控制的实现

离策略蒙特卡洛预测与控制简介

实践：实现蒙特卡洛预测

第 4 章测验

章节 5: 时序差分学习

从不完整的回合中学习

TD(0) 预测：估计 Vπ

TD学习相对于蒙特卡洛方法的优势

SARSA：同策略TD控制

Q学习：离策略TD控制

比较 SARSA 与 Q-学习

动手实践：Q-学习的实现

第 5 章测验

章节 6: 强化学习中的函数逼近

处理大规模状态空间

价值函数近似 (VFA)

状态表示的特征向量

价值函数逼近的线性方法

用于参数学习的梯度下降

半梯度 TD 方法

使用神经网络进行价值函数近似

实践：应用线性价值函数近似

第 6 章测验

章节 7: 深度Q网络(DQN)简介

Q学习与深度学习的结合

强化学习中神经网络的难题

经验回放机制

固定Q目标 (目标网络)

DQN 算法结构

DQN 的网络结构设计考量

动手实践：构建一个基础DQN

第 7 章测验

章节 8: 策略梯度方法简介

直接学习策略

策略梯度定理 (理念)

REINFORCE 算法

降低方差的基线

Actor-Critic 方法概述

对比基于价值和基于策略的方法

实践：实现 REINFORCE

第 8 章测验

DQN 的网络结构设计考量

这部分内容有帮助吗？

参考文献

Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller, 2015 Nature, Vol. 518 DOI: 10.1038/nature14236 - 这篇基础性论文介绍了深度Q网络（DQN）架构，详细阐述了其用于图像输入卷积神经网络设计，并展示了其在Atari游戏上达到人类水平的表现。
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 这本标准教材涵盖了强化学习，包括使用神经网络进行函数逼近，以及Q学习和深度Q网络的全面解释。(第二版)
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 这本被广泛引用的教材涵盖了深度学习的理论和实践方面，包括多层感知器（MLP）、卷积神经网络（CNN）、激活函数以及整体神经网络设计。
Convolutional Neural Networks for Visual Recognition (CS231n), Fei-Fei Li, Justin Johnson, and Serena Yeung, 2024 (Stanford University) - 提供了卷积神经网络（CNN）及其架构组件和设计模式的深入解释，这对于DQN中处理基于图像的状态至关重要。(在线课程笔记)

© 2025 ApX Machine Learning用心打造