趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

趋近智

所有课程

高级强化学习技术

章节 1: 基础重温与函数近似

马尔可夫决策过程表述回顾

贝尔曼方程与最优性条件

价值迭代与策略迭代

时序差分学习方法

策略梯度方法入门

强化学习中的函数逼近

离策略学习中的致命三元组

章节 2: 深度Q网络及其改进

线性函数近似的局限性

深度Q网络 (DQN) 算法

经验回放机制

用于训练稳定性的目标网络

双重深度Q网络 (DDQN)

对偶网络架构

优先经验回放 (PER)

分布强化学习原理

Rainbow DQN 集成

DQN变体实现动手实践

章节 3: 高级策略梯度与 Actor-Critic 方法

基本策略梯度面临的挑战

行动者-评论者架构基本原理

降低方差的基线

优势 Actor-Critic (A2C) 和 A3C

广义优势估计 (GAE)

深度确定性策略梯度 (DDPG)

信任区域策略优化 (TRPO)

近端策略优化 (PPO)

软演员-评论家 (SAC)

演员-评论家方法实现实践

章节 4: 进阶搜寻策略

再谈试错-利用权衡

不确定性下的乐观主义：UCB 方法

概率匹配：汤普森采样

参数空间噪声用于行为多样性

伪计数：基于计数的寻访方法

预测误差作为好奇心：内生激励

状态新颖性：随机网络蒸馏 (RND)

信息增益在行动引导中的应用

行为策略的对比与结合

寻优策略实施实践

章节 5: 基于模型的强化学习

基于模型的强化学习的理由

基于模型方法的分类

学习环境动态模型

Dyna 架构：学习与规划的结合

使用已学习模型进行规划：轨迹采样

蒙特卡洛树搜索（MCTS）基本原理

将MCTS与习得模型整合

模型预测控制 (MPC) 的关联

挑战：模型准确性与计算成本

简单基于模型的智能体实践

章节 6: 多智能体强化学习

多智能体系统介绍

MARL问题表述：随机博弈

集中式与分布式控制

挑战：非静态性问题

独立学习者 (IQL, IDDPG)

参数共享方法

集中式训练与去中心化执行 (CTDE)

价值分解方法 (VDN, QMIX)

多智能体深度确定性策略梯度 (MADDPG)

多智能体强化学习中的通信协议

MARL实现实践

章节 7: 离线强化学习

离线强化学习（批处理强化学习）简介

离线强化学习与在线及离策略强化学习的区别

挑战：分布偏移

离策略评估在离线设置中

重要性采样及其局限性

拟合Q迭代（FQI）方法

策略约束方法

批处理约束深度Q学习 (BCQ)

值函数正则化方法

保守Q学习 (CQL)

离线强化学习实现方面的考量

离线强化学习算法实践

章节 8: 实现细节与优化

强化学习中的神经网络架构

超参数调整策略

动作空间与观测空间表示

强化学习项目的代码结构

软件框架与库

分布式强化学习方法

深度强化学习的可复现性

调试与可视化技术

性能优化与硬件考量

智能体调试与调优实践

高级强化学习技术

本课程涵盖高级强化学习 (reinforcement learning)算法与方法论。它侧重于深度强化学习、策略优化、寻觅方法、基于模型的技术以及多智能体系统。学习者将掌握处理复杂序列决策问题的理论知识与实践操作技能。

先修课程 Python，机器学习与强化学习基本知识。

级别:

专员级

深度Q网络变体
实现并理解DQN、Double DQN、Dueling DQN和优先经验回放等算法。
高级策略梯度方法
掌握A2C、A3C、DDPG、TRPO和PPO的理论与应用。
高级寻觅策略
应用除epsilon-greedy之外的寻觅技术，包括好奇心驱动和基于计数的方法。
基于模型的强化学习
开发能够学习环境模型并用于规划的智能体（例如Dyna-Q、MCTS集成思路）。
多智能体强化学习
理解多智能体场景中的难题，并实现协作和竞争模式下的算法（例如MADDPG）。
离线强化学习
学习如何使用固定数据集训练强化学习智能体，处理诸如分布偏移等难题。
实现与优化
有效优化深度强化学习的实现、调整超参数并调试智能体行为。

© 2026 ApX Machine Learning