趋近智
“许多场景不仅涉及一个决策者,还有多个实体在共享空间中行动和反应。比如,一个机器人团队协同组装产品,自动驾驶汽车在繁忙路口行驶,或玩家在复杂策略游戏中对战。这些都是**多智能体系统(MAS)**的例子。”
形式上,多智能体系统包含:
这种交互是区分多智能体问题与单智能体问题的显著特点。尽管我们可以用马尔可夫决策过程(MDP)来建模单个智能体的任务,但其他适应性智能体的存在带来了不少难题。
思考将标准单智能体算法(如Q学习)直接应用于多智能体系统中的一个智能体。从这个智能体的角度来看,其他智能体只是环境的一部分。然而,如果这些其他智能体也在学习并改变其策略,那么环境的动态就不再是稳定的。转移概率 和奖励函数 隐含地依赖于所有智能体的联合行动。当其他智能体改变其策略 时,我们的学习智能体(智能体 ,采取行动 )所经历的有效转移概率和奖励会随时间变化。
这就引出了多智能体强化学习 (reinforcement learning)(MARL)中的基本难题:非平稳性。
设想智能体 学习在状态 下采取行动 的价值。它根据结果获得反馈,而结果取决于智能体 同时采取了哪些行动。如果智能体 正在改进其策略,那么与智能体 在状态 下的行动 相关的结果就会改变。昨天看起来不错的行动,今天可能有害,因为其他智能体已经适应了。这违反了许多单智能体强化学习算法收敛性保证所依赖的平稳性假设。学习可能会变得不稳定、缓慢,或根本无法收敛。
双智能体系统中的交互循环。每个智能体的策略更新都会影响另一个智能体感知的环境动态,从而导致非平稳性。
智能体交互的性质也影响着问题的类型:
由于单智能体方法在非平稳性和联合行动空间的复杂性方面面临挑战,多智能体强化学习(MARL)发展了专门的框架和算法。本章审视了几种旨在解决这些问题的方法,使智能体能够在共享环境中学习有效的策略。我们将介绍从简单的独立学习到更精巧的集中式训练和价值分解等方法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•