所有课程

高级强化学习技术

章节 1: 基础重温与函数近似

马尔可夫决策过程表述回顾

贝尔曼方程与最优性条件

价值迭代与策略迭代

时序差分学习方法

策略梯度方法入门

强化学习中的函数逼近

离策略学习中的致命三元组

章节 2: 深度Q网络及其改进

线性函数近似的局限性

深度Q网络 (DQN) 算法

经验回放机制

用于训练稳定性的目标网络

双重深度Q网络 (DDQN)

对偶网络架构

优先经验回放 (PER)

分布强化学习原理

Rainbow DQN 集成

DQN变体实现动手实践

章节 3: 高级策略梯度与 Actor-Critic 方法

基本策略梯度面临的挑战

行动者-评论者架构基本原理

降低方差的基线

优势 Actor-Critic (A2C) 和 A3C

广义优势估计 (GAE)

深度确定性策略梯度 (DDPG)

信任区域策略优化 (TRPO)

近端策略优化 (PPO)

软演员-评论家 (SAC)

演员-评论家方法实现实践

章节 4: 进阶搜寻策略

再谈试错-利用权衡

不确定性下的乐观主义：UCB 方法

概率匹配：汤普森采样

参数空间噪声用于行为多样性

伪计数：基于计数的寻访方法

预测误差作为好奇心：内生激励

状态新颖性：随机网络蒸馏 (RND)

信息增益在行动引导中的应用

行为策略的对比与结合

寻优策略实施实践

章节 5: 基于模型的强化学习

基于模型的强化学习的理由

基于模型方法的分类

学习环境动态模型

Dyna 架构：学习与规划的结合

使用已学习模型进行规划：轨迹采样

蒙特卡洛树搜索（MCTS）基本原理

将MCTS与习得模型整合

模型预测控制 (MPC) 的关联

挑战：模型准确性与计算成本

简单基于模型的智能体实践

章节 6: 多智能体强化学习

多智能体系统介绍

MARL问题表述：随机博弈

集中式与分布式控制

挑战：非静态性问题

独立学习者 (IQL, IDDPG)

参数共享方法

集中式训练与去中心化执行 (CTDE)

价值分解方法 (VDN, QMIX)

多智能体深度确定性策略梯度 (MADDPG)

多智能体强化学习中的通信协议

MARL实现实践

章节 7: 离线强化学习

离线强化学习（批处理强化学习）简介

离线强化学习与在线及离策略强化学习的区别

挑战：分布偏移

离策略评估在离线设置中

重要性采样及其局限性

拟合Q迭代（FQI）方法

策略约束方法

批处理约束深度Q学习 (BCQ)

值函数正则化方法

保守Q学习 (CQL)

离线强化学习实现方面的考量

离线强化学习算法实践

章节 8: 实现细节与优化

强化学习中的神经网络架构

超参数调整策略

动作空间与观测空间表示

强化学习项目的代码结构

软件框架与库

分布式强化学习方法

深度强化学习的可复现性

调试与可视化技术

性能优化与硬件考量

智能体调试与调优实践

集中式与分布式控制

这部分内容有帮助吗？

参考文献

A Survey of Multi-Agent Reinforcement Learning Research, Kaiqing Zhang, Zhuoran Yang, Tamer Basar, 2021 Proceedings of the IEEE, Vol. 109 (IEEE) DOI: 10.1109/JPROC.2021.3117521 - 对多智能体强化学习的广泛概述，涵盖了其挑战（如非平稳性）和各种控制范式。
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, Igor Mordatch, 2017 Advances in Neural Information Processing Systems (NeurIPS), Vol. 30 DOI: 10.48550/arXiv.1706.02275 - 介绍了MADDPG，这是一种CTDE算法，可解决多智能体环境中的非平稳性问题。
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning, Tabish Rashid, Gregory Farquhar, Shimon Whiteson, Jakob Foerster, 2018 International Conference on Machine Learning (ICML) DOI: 10.48550/arXiv.1803.01148 - 提出了QMIX，一种广泛用于合作型多智能体强化学习的CTDE方法，强调了价值函数分解。
Multi-Agent Reinforcement Learning: Theory and Algorithms, Wen-Qiang Zhang, Xin Liu, Ya-Li Du, 2020 (Springer Nature Singapore) DOI: 10.1007/978-981-15-2831-2 - 一本关于多智能体强化学习理论的书籍，包含了集中式、分布式和CTDE方法。

© 2025 ApX Machine Learning用心打造