“许多场景不仅涉及一个决策者,还有多个实体在共享空间中行动和反应。比如,一个机器人团队协同组装产品,自动驾驶汽车在繁忙路口行驶,或玩家在复杂策略游戏中对战。这些都是**多智能体系统(MAS)**的例子。”形式上,多智能体系统包含:一个环境:智能体在其间运作的共享空间或背景。多个智能体:独立的决策者,每个智能体感知环境(或其部分)并选择行动以达成自身目标。交互:一个智能体的行动会影响环境状态,进而影响其他智能体接收到的观测结果和潜在奖励。这种交互是区分多智能体问题与单智能体问题的显著特点。尽管我们可以用马尔可夫决策过程(MDP)来建模单个智能体的任务,但其他适应性智能体的存在带来了不少难题。思考将标准单智能体算法(如Q学习)直接应用于多智能体系统中的一个智能体。从这个智能体的角度来看,其他智能体只是环境的一部分。然而,如果这些其他智能体也在学习并改变其策略,那么环境的动态就不再是稳定的。转移概率 $P(s'|s, a)$ 和奖励函数 $R(s, a)$ 隐含地依赖于所有智能体的联合行动。当其他智能体改变其策略 $\pi_j(a_j|s)$ 时,我们的学习智能体(智能体 $i$,采取行动 $a_i$)所经历的有效转移概率和奖励会随时间变化。这就引出了多智能体强化学习(MARL)中的基本难题:非平稳性。设想智能体 $i$ 学习在状态 $s$ 下采取行动 $a$ 的价值。它根据结果获得反馈,而结果取决于智能体 $j, k, \dots$ 同时采取了哪些行动。如果智能体 $j, k, \dots$ 正在改进其策略,那么与智能体 $i$ 在状态 $s$ 下的行动 $a$ 相关的结果就会改变。昨天看起来不错的行动,今天可能有害,因为其他智能体已经适应了。这违反了许多单智能体强化学习算法收敛性保证所依赖的平稳性假设。学习可能会变得不稳定、缓慢,或根本无法收敛。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fontcolor="#495057"]; edge [fontname="sans-serif", color="#868e96", fontcolor="#868e96"]; subgraph cluster_agent_i { label = "智能体 i"; bgcolor="#e9ecef"; color="#adb5bd"; Agent_i [label="策略 πi", shape=ellipse, style=filled, fillcolor="#a5d8ff"]; Observation_i [label="观测 Oi"]; Action_i [label="行动 ai"]; Reward_i [label="奖励 Ri"]; Agent_i -> Action_i [label="选择"]; Observation_i -> Agent_i [label="接收"]; } subgraph cluster_agent_j { label = "智能体 j"; bgcolor="#e9ecef"; color="#adb5bd"; Agent_j [label="策略 πj", shape=ellipse, style=filled, fillcolor="#ffec99"]; Observation_j [label="观测 Oj"]; Action_j [label="行动 aj"]; Reward_j [label="奖励 Rj"]; Agent_j -> Action_j [label="选择"]; Observation_j -> Agent_j [label="接收"]; } Environment [label="环境\n(状态 S)", shape=cylinder, style=filled, fillcolor="#b2f2bb"]; Action_i -> Environment [label="执行"]; Action_j -> Environment [label="执行"]; Environment -> Observation_i [label="提供"]; Environment -> Reward_i [label="提供"]; Environment -> Observation_j [label="提供"]; Environment -> Reward_j [label="提供"]; Agent_i -> Agent_j [style=dashed, arrowhead=none, label="影响\n(非平稳性)"]; }双智能体系统中的交互循环。每个智能体的策略更新都会影响另一个智能体感知的环境动态,从而导致非平稳性。智能体交互的性质也影响着问题的类型:完全协作型:所有智能体共享一个奖励信号,并致力于共同的目标(例如,机器人仓储物流)。目标是最大化团队绩效。完全竞争型:智能体目标截然相反,常建模为零和博弈,一方的收益是另一方的损失(例如,国际象棋、围棋)。混合型:包含协作和竞争两种成分。智能体可能在团队内协作但与其他团队竞争,或者个体智能体可能有自身利益目标,这些目标可能根据情况而一致或冲突(例如,交通协商、拍卖)。由于单智能体方法在非平稳性和联合行动空间的复杂性方面面临挑战,多智能体强化学习(MARL)发展了专门的框架和算法。本章审视了几种旨在解决这些问题的方法,使智能体能够在共享环境中学习有效的策略。我们将介绍从简单的独立学习到更精巧的集中式训练和价值分解等方法。