趋近智
单智能体强化学习 (reinforcement learning)通常在一个静态环境的假设下进行操作。这意味着状态间转移的规则 () 和获得的奖励 () 随时间保持不变。一个智能体与这个稳定的环境互动,学习其行动如何影响结果。这种静态性是支持许多RL算法(例如Q学习和DQN)收敛性保证的基本假设。
然而,在多智能体设置中,这个假设会显著失效。当多个智能体在同一环境中同时学习时,从任何单个智能体的角度来看,环境变得非静态。
设想在N个智能体中有一个智能体i。其目标是学习一个最优策略。环境状态根据所有智能体采取的联合行动 ,依据真实转移概率转移到。智能体i获得奖励,这可能也依赖于联合行动,。
智能体i观察状态,根据其当前策略选择其行动,获得奖励,并观察下一个状态。从智能体i的局部视角看,转移似乎只依赖于它自己的行动。然而,它所经历的实际转移概率,我们称之为,是通过对所有其他智能体根据其策略所采取的行动进行平均来确定的:
类似地,智能体i在状态中采取行动所感知的预期奖励,记作,取决于其他智能体的行为:
这就是问题的核心:当其他智能体 学习并更新其策略 时,智能体 经历的有效转移概率 和预期奖励 会随时间变化。从智能体 的角度来看,环境不再是静态的。马尔可夫性质(即给定当前状态(和行动),未来独立于过去)在智能体 的局部视角下实际上被违反了,因为其底层动态取决于隐藏变量:其他智能体不断变化的策略。
智能体B经历着变化的环境动态(转移概率),因为智能体A同时在更新其策略。在时间 对智能体B有效的方法,在时间 可能不再有效。
这种非静态性给学习带来了显著挑战:
标准的单智能体算法,例如Q学习,严重依赖环境的静态性来确保收敛到最优价值函数或策略。当目标Q值(用于贝尔曼更新)因其他智能体策略的变化而不断移动时,学习过程可能变得不稳定。该算法可能会振荡、发散,或者收敛到一个次优解,这代表了不再相关的策略之间的糟糕折衷。这就像试图击中一个根据你之前的尝试不断移动的目标。
经验回放等技术,对于稳定DQN非常重要,它将过去的转移 存储在回放缓冲区中,并从中采样来训练Q网络。这在静态环境中效果良好,因为旧的经验仍然是环境动态的有效表示。然而,在MARL中,当其他智能体遵循策略 时收集的转移,可能与它们当前策略 下发生的情况大相径庭。回放过时经验可能会引入显著偏差并阻碍学习,因为智能体基于关于多智能体系统当前行为的误导性信息进行训练。
对结果进行归功或归责变得更加困难。智能体收到低奖励是因为它自己的行动不佳,还是因为另一个智能体采取了干扰或未能有效协作的行动?区分不同智能体对集体结果的贡献是一个复杂的问题,而其他智能体行为的变化使这个问题更加严重。
解决这种非静态性是MARL研究的一个核心议题。许多先进的MARL算法(我们稍后将讨论)包含了特定的机制来减轻这些问题,通常是通过允许智能体在训练期间访问比执行期间更多的信息(即集中式训练与分布式执行),或者通过尝试建模或预测其他智能体的行为。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•