趋近智
首页
博客
课程
大模型
中
所有课程
高级强化学习技术
章节 1: 基础重温与函数近似
马尔可夫决策过程表述回顾
贝尔曼方程与最优性条件
价值迭代与策略迭代
时序差分学习方法
策略梯度方法入门
强化学习中的函数逼近
离策略学习中的致命三元组
章节 2: 深度Q网络及其改进
线性函数近似的局限性
深度Q网络 (DQN) 算法
经验回放机制
用于训练稳定性的目标网络
双重深度Q网络 (DDQN)
对偶网络架构
优先经验回放 (PER)
分布强化学习原理
Rainbow DQN 集成
DQN变体实现动手实践
章节 3: 高级策略梯度与 Actor-Critic 方法
基本策略梯度面临的挑战
行动者-评论者架构基本原理
降低方差的基线
优势 Actor-Critic (A2C) 和 A3C
广义优势估计 (GAE)
深度确定性策略梯度 (DDPG)
信任区域策略优化 (TRPO)
近端策略优化 (PPO)
软演员-评论家 (SAC)
演员-评论家方法实现实践
章节 4: 进阶搜寻策略
再谈试错-利用权衡
不确定性下的乐观主义:UCB 方法
概率匹配:汤普森采样
参数空间噪声用于行为多样性
伪计数:基于计数的寻访方法
预测误差作为好奇心:内生激励
状态新颖性:随机网络蒸馏 (RND)
信息增益在行动引导中的应用
行为策略的对比与结合
寻优策略实施实践
章节 5: 基于模型的强化学习
基于模型的强化学习的理由
基于模型方法的分类
学习环境动态模型
Dyna 架构:学习与规划的结合
使用已学习模型进行规划:轨迹采样
蒙特卡洛树搜索(MCTS)基本原理
将MCTS与习得模型整合
模型预测控制 (MPC) 的关联
挑战:模型准确性与计算成本
简单基于模型的智能体实践
章节 6: 多智能体强化学习
多智能体系统介绍
MARL问题表述:随机博弈
集中式与分布式控制
挑战:非静态性问题
独立学习者 (IQL, IDDPG)
参数共享方法
集中式训练与去中心化执行 (CTDE)
价值分解方法 (VDN, QMIX)
多智能体深度确定性策略梯度 (MADDPG)
多智能体强化学习中的通信协议
MARL实现实践
章节 7: 离线强化学习
离线强化学习(批处理强化学习)简介
离线强化学习与在线及离策略强化学习的区别
挑战:分布偏移
离策略评估在离线设置中
重要性采样及其局限性
拟合Q迭代(FQI)方法
策略约束方法
批处理约束深度Q学习 (BCQ)
值函数正则化方法
保守Q学习 (CQL)
离线强化学习实现方面的考量
离线强化学习算法实践
章节 8: 实现细节与优化
强化学习中的神经网络架构
超参数调整策略
动作空间与观测空间表示
强化学习项目的代码结构
软件框架与库
分布式强化学习方法
深度强化学习的可复现性
调试与可视化技术
性能优化与硬件考量
智能体调试与调优实践
参数空间噪声用于行为多样性
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning