趋近智
在多智能体环境中独立训练智能体(例如使用独立Q学习或IQL)面临一大挑战:非平稳性。从智能体的角度看,随着其他智能体()更新它们的策略,环境似乎在发生变化,使得智能体的学习过程难以收敛。这就像试图击中一个会移动并对你的尝试做出反应的目标。
另一方面,一个完全中心化的控制器虽然能观察一切并为所有智能体指定动作,从而避免非平稳性,但它的扩展性差,并且在执行时通常需要不切实际的通信能力。想象一下,你需要一个中央指挥中心来实时协调多个机器人的每一步动作。这通常不切实际。
集中式训练与去中心化执行 (CTDE) 提供了一种有吸引力的折衷方案。它的目标是同时实现两种优势:在学习阶段运用全局信息来稳定训练并减轻非平稳性,同时仍能生成允许智能体在执行时仅使用其局部观察进行独立行动的策略。
主要思想简单而有效:训练时使用额外信息,执行时使用局部信息。
CTDE设置中的信息流。在训练期间(蓝色背景),一个集中式组件使用全局信息来指导去中心化行动者(浅蓝色背景)的学习。在执行期间,智能体仅使用其局部观察 来选择动作 。
集中式训练: 在训练阶段,我们假定可以获取比执行时更多信息。这可能包括所有智能体的观察和动作,甚至环境的底层全局状态 。这些额外信息通常输入到一个集中式组件中,在行动者-评论器架构中通常是一个评论器。
去中心化执行: 训练完成后,集中式组件被移除。每个智能体 部署其学得的策略 ,该策略仅基于自身的局部观察历史 来选择动作。
尽管功能强大,但CTDE并非万能药。主要考虑点是确保使用集中信息学习到的去中心化策略,在执行时移除这些额外信息后,仍能表现良好。这通常需要仔细设计集中式训练机制和各个策略。此外,虽然执行是去中心化的,但训练过程仍需要一种收集和处理可能大量全局信息的机制,这可能会根据问题规模和具体算法带来其自身的计算瓶颈。
总而言之,CTDE是MARL中一种非常有效且被广泛采用的方法。它在训练期间直接处理非平稳性问题,同时保持去中心化执行的实用性,为许多先进的多智能体算法奠定了基础。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造