趋近智
许多顺序决策问题都包含多个彼此影响的智能体,从机器人团队和自动驾驶车辆,到经济建模和博弈游戏。单智能体强化学习方法在这些情况下往往力有不逮,因为每个智能体的最佳策略都依赖于其他智能体的行为。本章将介绍多智能体强化学习(MARL),把强化学习的原则推广到多个智能体的环境中。
我们将首先对多智能体问题进行形式化,通常使用随机博弈(或马尔可夫博弈)的框架。多智能体强化学习中的一个主要难题是非平稳性:从任何单个智能体的角度来看,当其他智能体调整其策略时,环境动态会发生变化。我们将研究解决这些及其他挑战的不同方法,对比集中式训练方法与分布式执行策略(CTDE)。
你将学习到:
到本章结束时,你将理解多智能体强化学习的核心问题,并熟悉几种用于训练多个彼此影响的智能体的常用算法。
6.1 多智能体系统介绍
6.2 MARL问题表述:随机博弈
6.3 集中式与分布式控制
6.4 挑战:非静态性问题
6.5 独立学习者 (IQL, IDDPG)
6.6 参数共享方法
6.7 集中式训练与去中心化执行 (CTDE)
6.8 价值分解方法 (VDN, QMIX)
6.9 多智能体深度确定性策略梯度 (MADDPG)
6.10 多智能体强化学习中的通信协议
6.11 MARL实现实践
© 2026 ApX Machine Learning用心打造