所有课程

高级强化学习技术

章节 1: 基础重温与函数近似

马尔可夫决策过程表述回顾

贝尔曼方程与最优性条件

价值迭代与策略迭代

时序差分学习方法

策略梯度方法入门

强化学习中的函数逼近

离策略学习中的致命三元组

章节 2: 深度Q网络及其改进

线性函数近似的局限性

深度Q网络 (DQN) 算法

经验回放机制

用于训练稳定性的目标网络

双重深度Q网络 (DDQN)

对偶网络架构

优先经验回放 (PER)

分布强化学习原理

Rainbow DQN 集成

DQN变体实现动手实践

章节 3: 高级策略梯度与 Actor-Critic 方法

基本策略梯度面临的挑战

行动者-评论者架构基本原理

降低方差的基线

优势 Actor-Critic (A2C) 和 A3C

广义优势估计 (GAE)

深度确定性策略梯度 (DDPG)

信任区域策略优化 (TRPO)

近端策略优化 (PPO)

软演员-评论家 (SAC)

演员-评论家方法实现实践

章节 4: 进阶搜寻策略

再谈试错-利用权衡

不确定性下的乐观主义：UCB 方法

概率匹配：汤普森采样

参数空间噪声用于行为多样性

伪计数：基于计数的寻访方法

预测误差作为好奇心：内生激励

状态新颖性：随机网络蒸馏 (RND)

信息增益在行动引导中的应用

行为策略的对比与结合

寻优策略实施实践

章节 5: 基于模型的强化学习

基于模型的强化学习的理由

基于模型方法的分类

学习环境动态模型

Dyna 架构：学习与规划的结合

使用已学习模型进行规划：轨迹采样

蒙特卡洛树搜索（MCTS）基本原理

将MCTS与习得模型整合

模型预测控制 (MPC) 的关联

挑战：模型准确性与计算成本

简单基于模型的智能体实践

章节 6: 多智能体强化学习

多智能体系统介绍

MARL问题表述：随机博弈

集中式与分布式控制

挑战：非静态性问题

独立学习者 (IQL, IDDPG)

参数共享方法

集中式训练与去中心化执行 (CTDE)

价值分解方法 (VDN, QMIX)

多智能体深度确定性策略梯度 (MADDPG)

多智能体强化学习中的通信协议

MARL实现实践

章节 7: 离线强化学习

离线强化学习（批处理强化学习）简介

离线强化学习与在线及离策略强化学习的区别

挑战：分布偏移

离策略评估在离线设置中

重要性采样及其局限性

拟合Q迭代（FQI）方法

策略约束方法

批处理约束深度Q学习 (BCQ)

值函数正则化方法

保守Q学习 (CQL)

离线强化学习实现方面的考量

离线强化学习算法实践

章节 8: 实现细节与优化

强化学习中的神经网络架构

超参数调整策略

动作空间与观测空间表示

强化学习项目的代码结构

软件框架与库

分布式强化学习方法

深度强化学习的可复现性

调试与可视化技术

性能优化与硬件考量

智能体调试与调优实践

参数共享方法

这部分内容有帮助吗？

参考文献

Multi-Agent Reinforcement Learning: A Review of Algorithms and Applications, Kaiqing Zhang, Zhuoran Yang, Tamer Başar, 2019 Foundations and Trends in Machine Learning, Vol. 12 (Now Publishers) DOI: 10.1561/2200000083 - 这篇综合性综述涵盖了各种MARL算法，包括独立学习器、CTDE，并讨论了参数共享作为一种常见技术，特别适用于同质智能体。
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, Igor Mordatch, 2017 Advances in Neural Information Processing Systems, Vol. 30 (NeurIPS) DOI: 10.5591/978-1-57783-000-8-124 - 这篇有影响力的论文介绍了MADDPG（一种CTDE框架），并强调了独立学习的非平稳性问题，为理解为何需要参数共享等解决方案提供了背景。虽然不完全是关于参数共享，但它是一个可以在CTDE范式内将参数共享自然应用于同质智能体的突出架构。
Parameter Sharing with Role-Based Networks for Multi-Agent Reinforcement Learning, Arash Omidshafiei, Jason Ma, Michael A. Hutter, Shariq Iqbal, Jonathan P. How, 2019 Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33 (Association for the Advancement of Artificial Intelligence (AAAI)) DOI: 10.1609/aaai.v33i01.33014546 - 这篇论文专门探讨了参数共享的变体，如基于角色的共享和部分共享，与内容中的“变体和扩展”部分直接对应。
Deep Reinforcement Learning Hands-On: Apply modern RL methods, with deep Q-networks, actor-critic models, and Beyond, Maxim Lapan, 2020 (Packt Publishing) - 这本实用指南提供了各种深度MARL技术的实现和讨论，包括参数共享，对于寻求具体示例和实用建议的读者很有价值。

© 2025 ApX Machine Learning用心打造