单智能体强化学习通常在一个静态环境的假设下进行操作。这意味着状态间转移的规则 ($P(s'|s,a)$) 和获得的奖励 ($R(s,a)$) 随时间保持不变。一个智能体与这个稳定的环境互动,学习其行动如何影响结果。这种静态性是支持许多RL算法(例如Q学习和DQN)收敛性保证的基本假设。然而,在多智能体设置中,这个假设会显著失效。当多个智能体在同一环境中同时学习时,从任何单个智能体的角度来看,环境变得非静态。设想在N个智能体中有一个智能体i。其目标是学习一个最优策略$\pi_i$。环境状态$s$根据所有智能体采取的联合行动 $a = (a_1, a_2, ..., a_N)$,依据真实转移概率$P(s' | s, a)$转移到$s'$。智能体i获得奖励$r_i$,这可能也依赖于联合行动,$R_i(s, a)$。智能体i观察状态$s$,根据其当前策略$\pi_i(a_i|s)$选择其行动$a_i$,获得奖励$r_i$,并观察下一个状态$s'$。从智能体i的局部视角看,转移似乎只依赖于它自己的行动$a_i$。然而,它所经历的实际转移概率,我们称之为$P_i(s' | s, a_i)$,是通过对所有其他智能体根据其策略$\pi_{-i}$所采取的行动$a_{-i} = (a_1, ..., a_{i-1}, a_{i+1}, ..., a_N)$进行平均来确定的:$$ P_i(s' | s, a_i) = \sum_{a_{-i}} P(s' | s, a_i, a_{-i}) \prod_{j \neq i} \pi_j(a_j | s) $$类似地,智能体i在状态$s$中采取行动$a_i$所感知的预期奖励,记作$R_i(s, a_i)$,取决于其他智能体的行为:$$ R_i(s, a_i) = \sum_{a_{-i}} R_i(s, a_i, a_{-i}) \prod_{j \neq i} \pi_j(a_j | s) $$这就是问题的核心:当其他智能体 $j \neq i$ 学习并更新其策略 $\pi_j$ 时,智能体 $i$ 经历的有效转移概率 $P_i(s' | s, a_i)$ 和预期奖励 $R_i(s, a_i)$ 会随时间变化。从智能体 $i$ 的角度来看,环境不再是静态的。马尔可夫性质(即给定当前状态(和行动),未来独立于过去)在智能体 $i$ 的局部视角下实际上被违反了,因为其底层动态取决于隐藏变量:其他智能体不断变化的策略。digraph NonStationarity { rankdir=LR; node [shape=box, style=rounded, fontname="Arial", fontsize=10, margin=0.2]; edge [fontname="Arial", fontsize=9]; subgraph cluster_AgentA { label = "智能体A的学习"; bgcolor="#e9ecef"; Policy_A_t [label="策略A (时间 t)", fillcolor="#a5d8ff", style=filled]; Policy_A_t1 [label="策略A (时间 t+1)\n(已更新)", fillcolor="#74c0fc", style=filled]; Policy_A_t -> Policy_A_t1 [label=" 学习"]; } subgraph cluster_AgentB { label = "智能体B的视角"; bgcolor="#e9ecef"; State_s [label="状态 s", shape=ellipse, fillcolor="#ffe066", style=filled]; Action_B [label="行动 B (a_B)", shape=diamond, fillcolor="#ffc078", style=filled]; State_s_prime [label="下一状态 s'", shape=ellipse, fillcolor="#ffe066", style=filled]; State_s -> Action_B; } Policy_A_t -> Action_B [label=" 影响\n B的转移\n P(s'|s, a_B) @ t", style=dashed, color="#495057"]; Policy_A_t1 -> Action_B [label=" 影响\n B的转移\n P(s'|s, a_B) @ t+1", style=dashed, color="#f03e3e"]; Action_B -> State_s_prime [label=" 转移概率改变!", color="#f03e3e"]; label="智能体A的策略更新对智能体B感知动态的影响"; fontsize=12; fontcolor="#495057"; }智能体B经历着变化的环境动态(转移概率),因为智能体A同时在更新其策略。在时间 $t$ 对智能体B有效的方法,在时间 $t+1$ 可能不再有效。这种非静态性给学习带来了显著挑战:收敛性保证的失效标准的单智能体算法,例如Q学习,严重依赖环境的静态性来确保收敛到最优价值函数或策略。当目标Q值(用于贝尔曼更新)因其他智能体策略的变化而不断移动时,学习过程可能变得不稳定。该算法可能会振荡、发散,或者收敛到一个次优解,这代表了不再相关的策略之间的糟糕折衷。这就像试图击中一个根据你之前的尝试不断移动的目标。经验回放的失效经验回放等技术,对于稳定DQN非常重要,它将过去的转移 $(s, a, r, s')$ 存储在回放缓冲区中,并从中采样来训练Q网络。这在静态环境中效果良好,因为旧的经验仍然是环境动态的有效表示。然而,在MARL中,当其他智能体遵循策略 $\pi_{-i}^{\text{old}}$时收集的转移,可能与它们当前策略 $\pi_{-i}^{\text{new}}$下发生的情况大相径庭。回放过时经验可能会引入显著偏差并阻碍学习,因为智能体基于关于多智能体系统当前行为的误导性信息进行训练。难以归因对结果进行归功或归责变得更加困难。智能体$i$收到低奖励是因为它自己的行动$a_i$不佳,还是因为另一个智能体$j$采取了干扰或未能有效协作的行动$a_j$?区分不同智能体对集体结果的贡献是一个复杂的问题,而其他智能体行为的变化使这个问题更加严重。解决这种非静态性是MARL研究的一个核心议题。许多先进的MARL算法(我们稍后将讨论)包含了特定的机制来减轻这些问题,通常是通过允许智能体在训练期间访问比执行期间更多的信息(即集中式训练与分布式执行),或者通过尝试建模或预测其他智能体的行为。