所有课程

高级强化学习技术

章节 1: 基础重温与函数近似

马尔可夫决策过程表述回顾

贝尔曼方程与最优性条件

价值迭代与策略迭代

时序差分学习方法

策略梯度方法入门

强化学习中的函数逼近

离策略学习中的致命三元组

章节 2: 深度Q网络及其改进

线性函数近似的局限性

深度Q网络 (DQN) 算法

经验回放机制

用于训练稳定性的目标网络

双重深度Q网络 (DDQN)

对偶网络架构

优先经验回放 (PER)

分布强化学习原理

Rainbow DQN 集成

DQN变体实现动手实践

章节 3: 高级策略梯度与 Actor-Critic 方法

基本策略梯度面临的挑战

行动者-评论者架构基本原理

降低方差的基线

优势 Actor-Critic (A2C) 和 A3C

广义优势估计 (GAE)

深度确定性策略梯度 (DDPG)

信任区域策略优化 (TRPO)

近端策略优化 (PPO)

软演员-评论家 (SAC)

演员-评论家方法实现实践

章节 4: 进阶搜寻策略

再谈试错-利用权衡

不确定性下的乐观主义：UCB 方法

概率匹配：汤普森采样

参数空间噪声用于行为多样性

伪计数：基于计数的寻访方法

预测误差作为好奇心：内生激励

状态新颖性：随机网络蒸馏 (RND)

信息增益在行动引导中的应用

行为策略的对比与结合

寻优策略实施实践

章节 5: 基于模型的强化学习

基于模型的强化学习的理由

基于模型方法的分类

学习环境动态模型

Dyna 架构：学习与规划的结合

使用已学习模型进行规划：轨迹采样

蒙特卡洛树搜索（MCTS）基本原理

将MCTS与习得模型整合

模型预测控制 (MPC) 的关联

挑战：模型准确性与计算成本

简单基于模型的智能体实践

章节 6: 多智能体强化学习

多智能体系统介绍

MARL问题表述：随机博弈

集中式与分布式控制

挑战：非静态性问题

独立学习者 (IQL, IDDPG)

参数共享方法

集中式训练与去中心化执行 (CTDE)

价值分解方法 (VDN, QMIX)

多智能体深度确定性策略梯度 (MADDPG)

多智能体强化学习中的通信协议

MARL实现实践

章节 7: 离线强化学习

离线强化学习（批处理强化学习）简介

离线强化学习与在线及离策略强化学习的区别

挑战：分布偏移

离策略评估在离线设置中

重要性采样及其局限性

拟合Q迭代（FQI）方法

策略约束方法

批处理约束深度Q学习 (BCQ)

值函数正则化方法

保守Q学习 (CQL)

离线强化学习实现方面的考量

离线强化学习算法实践

章节 8: 实现细节与优化

强化学习中的神经网络架构

超参数调整策略

动作空间与观测空间表示

强化学习项目的代码结构

软件框架与库

分布式强化学习方法

深度强化学习的可复现性

调试与可视化技术

性能优化与硬件考量

智能体调试与调优实践

策略约束方法

这部分内容有帮助吗？

参考文献

Off-Policy Deep Reinforcement Learning without Exploration, Scott Fujimoto, David Meger, Doina Precup, 2019 Proceedings of the 36th International Conference on Machine Learning (ICML), Vol. 97 (PMLR) DOI: 10.5555/3305890.3306044 - 介绍了批量约束深度Q学习（BCQ），一种离线强化学习中基础的策略约束方法。
Behavior Regularized Actor Critic, Yifan Wu, Guanjun Liu, Jian Peng, 2020 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1911.00240 - 提出了行为正则化Actor-Critic（BRAC），一个通过显式行为策略估计来正则化策略更新的离线强化学习框架。
Offline Reinforcement Learning: A Review, Irina Kostrikov, Ashish Kumar, Sergey Levine, 2021 Foundations and Trends in Machine Learning, Vol. 14 (Now Publishers Inc.) DOI: 10.1561/2200000094 - 一篇关于离线强化学习的全面综述，其中详细讨论了策略约束方法及相关挑战。

© 2025 ApX Machine Learning用心打造