所有课程

高级强化学习技术

章节 1: 基础重温与函数近似

马尔可夫决策过程表述回顾

贝尔曼方程与最优性条件

价值迭代与策略迭代

时序差分学习方法

策略梯度方法入门

强化学习中的函数逼近

离策略学习中的致命三元组

章节 2: 深度Q网络及其改进

线性函数近似的局限性

深度Q网络 (DQN) 算法

经验回放机制

用于训练稳定性的目标网络

双重深度Q网络 (DDQN)

对偶网络架构

优先经验回放 (PER)

分布强化学习原理

Rainbow DQN 集成

DQN变体实现动手实践

章节 3: 高级策略梯度与 Actor-Critic 方法

基本策略梯度面临的挑战

行动者-评论者架构基本原理

降低方差的基线

优势 Actor-Critic (A2C) 和 A3C

广义优势估计 (GAE)

深度确定性策略梯度 (DDPG)

信任区域策略优化 (TRPO)

近端策略优化 (PPO)

软演员-评论家 (SAC)

演员-评论家方法实现实践

章节 4: 进阶搜寻策略

再谈试错-利用权衡

不确定性下的乐观主义：UCB 方法

概率匹配：汤普森采样

参数空间噪声用于行为多样性

伪计数：基于计数的寻访方法

预测误差作为好奇心：内生激励

状态新颖性：随机网络蒸馏 (RND)

信息增益在行动引导中的应用

行为策略的对比与结合

寻优策略实施实践

章节 5: 基于模型的强化学习

基于模型的强化学习的理由

基于模型方法的分类

学习环境动态模型

Dyna 架构：学习与规划的结合

使用已学习模型进行规划：轨迹采样

蒙特卡洛树搜索（MCTS）基本原理

将MCTS与习得模型整合

模型预测控制 (MPC) 的关联

挑战：模型准确性与计算成本

简单基于模型的智能体实践

章节 6: 多智能体强化学习

多智能体系统介绍

MARL问题表述：随机博弈

集中式与分布式控制

挑战：非静态性问题

独立学习者 (IQL, IDDPG)

参数共享方法

集中式训练与去中心化执行 (CTDE)

价值分解方法 (VDN, QMIX)

多智能体深度确定性策略梯度 (MADDPG)

多智能体强化学习中的通信协议

MARL实现实践

章节 7: 离线强化学习

离线强化学习（批处理强化学习）简介

离线强化学习与在线及离策略强化学习的区别

挑战：分布偏移

离策略评估在离线设置中

重要性采样及其局限性

拟合Q迭代（FQI）方法

策略约束方法

批处理约束深度Q学习 (BCQ)

值函数正则化方法

保守Q学习 (CQL)

离线强化学习实现方面的考量

离线强化学习算法实践

章节 8: 实现细节与优化

强化学习中的神经网络架构

超参数调整策略

动作空间与观测空间表示

强化学习项目的代码结构

软件框架与库

分布式强化学习方法

深度强化学习的可复现性

调试与可视化技术

性能优化与硬件考量

智能体调试与调优实践

信息增益在行动引导中的应用

这部分内容有帮助吗？

参考文献

Variational Information Maximizing Exploration, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel, 2016 Advances in Neural Information Processing Systems, Vol. 29 (Curran Associates, Inc.) DOI: 10.48550/arXiv.1605.09674 - 介绍了变分信息最大化探索（VIME），一种深度强化学习方法，通过变分推断直接最大化关于环境动态模型的信息增益，用于探索。
Deep Exploration via Bootstrapped DQN, Ian Osband, Charles Blundell, Alexander Pritzel, Benjamin Van Roy, 2016 Advances in Neural Information Processing Systems 29 (Neural Information Processing Systems) - 描述了通过引导式DQN进行的深度探索，这是一种利用价值函数集成表示模型不确定性并指导探索的策略，作为信息增益的近似方法。
Bayesian Reinforcement Learning: A Survey, Mohammad Ghavamzadeh, Shie Mannor, Joelle Pineau, and Aviv Tamar, 2015 Foundations and Trends in Machine Learning, Vol. 8 (Now Publishers) DOI: 10.1561/2200000049 - 全面回顾了贝叶斯强化学习，解释了概率模型和信念分布如何用于处理不确定性，这是信息增益探索的核心要素。
PILCO: A Model-Based Reinforcement Learning Architecture for Fast and Robust Policy Search, Marc Peter Deisenroth and Carl Edward Rasmussen, 2011 Proceedings of the 28th International Conference on Machine Learning (ICML), Vol. 15 (PMLR (Proceedings of Machine Learning Research)) DOI: 10.5592/mlr.2011.v15.deisenroth11a - 介绍了PILCO，一种基于模型的强化学习算法，使用高斯过程维护概率动态模型。该方法跟踪模型不确定性，通过关注理解不足的区域来指导有效探索，并辅助鲁棒的策略优化。

© 2025 ApX Machine Learning用心打造