尽管结构化通信和预定义工作流可以实现一定程度的协调,但在大型语言模型智能体之间实现真正具有适应性和复杂性的协作,特别是在动态环境下,通常需要它们学习如何协调。多智能体强化学习 (reinforcement learning) (MARL) 提供了一个框架,让智能体通过互动和反馈学习最佳策略,旨在使整体表现达到最佳。在此,对多智能体强化学习进行了进阶说明,侧重于其如何应用于训练基于大型语言模型的智能体有效协调行为。
多智能体强化学习将单智能体强化学习 (RL) 扩展到多个智能体互动的场景。每个智能体学习自己的策略,但环境的动态和获得的奖励受所有智能体行为的影响。这带来了单智能体设置中没有的许多复杂问题。
多智能体强化学习 (reinforcement learning)的核心框架:去中心化部分可观察马尔可夫决策过程
许多多智能体问题可以建模为去中心化部分可观察马尔可夫决策过程 (Dec-POMDPs)。在一个 Dec-POMDP 中,每个智能体 i 从全局状态 s 获得自己的局部观察 oi,执行一个动作 ai,系统随即转移到新状态 s′。在完全协作设置中,所有智能体通常共享一个共同奖励 Rtglobal;在混合或竞争设置中,则接收各自的奖励 Rti。协作式多智能体强化学习的目标是为 N 个智能体找到一组联合策略 π=(π1,...,πN),以最大化共享的预期折扣回报:
J(π)=Eτ∼P(⋅∣π)[∑t=0TγtRtglobal]
这里,τ 表示状态、动作和观察的联合轨迹,P(⋅∣π) 是给定联合策略下该轨迹的概率,γ 是折扣因子。部分可观察性意味着每个智能体通常必须根据不完整的整体情况采取行动,并依赖于其观察历史。
集中训练与去中心化执行 (CTDE)
多智能体强化学习 (reinforcement learning)中一种主要方法是集中训练与去中心化执行 (CTDE)。在训练阶段,算法可以使用全局信息,例如其他智能体的动作、观察,甚至真实环境状态,以促进学习。这有助于解决贡献分配问题(哪个智能体对结果有贡献?)和非平稳性问题(即当一个智能体学习时,环境会有效地为其他智能体改变)。训练完成后,每个智能体只使用其局部观察来执行其学习到的策略,这使得系统在部署时具有可扩展性并能有效应对通信限制。
集中训练与去中心化执行方法通过在训练期间使用额外信息,能够实现更稳定和高效的学习,同时确保智能体在执行期间可以自主运作。
流行的集中训练与去中心化执行方法包括:
- MADDPG (多智能体深度确定性策略梯度): 通过为每个智能体训练一个集中式评价器来扩展 DDPG,该评价器以所有智能体的动作和观察作为输入。
- QMIX: 一种基于价值的方法,通过每个智能体的效用 Qi 的单调混合来学习联合动作价值函数 Qtot。这确保了 Qtot 上的全局 argmax 等效于每个 Qi 上的单独 argmax 操作,从而简化了去中心化执行。
将多智能体强化学习 (reinforcement learning)与大型语言模型智能体结合
将多智能体强化学习应用于基于大型语言模型的智能体,带来了独特机遇和重要难题。大型语言模型可以在多智能体强化学习智能体的架构中扮演多种角色,影响状态感知、动作生成以及通信执行方式。
大型语言模型可以作为复杂的观察处理器、提出候选动作的推理 (inference)引擎,甚至直接参数 (parameter)化部分策略。强化学习更新随后可以改善大型语言模型的行为或选择机制。
1. 大型语言模型作为策略组件:
大型语言模型可以构成智能体策略的一部分。例如:
- 观察处理: 大型语言模型可以解释复杂的基于文本的观察或对话历史,提取重要特征以形成智能体的状态表示。
- 动作生成: 大型语言模型可以生成一组候选动作(例如:文本响应、API 调用、工具参数)。一个由多智能体强化学习训练的独立策略头部可以随后从这些候选动作中进行选择或对其进行改进。
- 直接策略输出: 在某些情况下,大型语言模型可能会被微调 (fine-tuning)以直接输出动作概率或价值,尽管这可能因涉及的庞大且通常离散的动作空间(例如:生成连贯句子)而具有挑战性。
2. 学习通信协议:
多智能体强化学习可以使智能体学习通信内容、通信时机以及通信对象,以最大化集体奖励,而非依赖固定的消息结构。
- 通信行为本身成为智能体动作空间中的一个动作。
- 消息内容可以由大型语言模型生成,多智能体强化学习可以学习控制或塑造这些通信。
- 由于语言的组合性质,这非常复杂,但为更丰富和适应性强的智能体间对话提供了可能性。
3. 奖励塑形与设计:
定义合适的奖励函数始终是强化学习的难点,对于执行复杂任务的大型语言模型智能体来说更是如此。
- 稀疏奖励: 任务完成可能是一个非常稀疏的信号。
- 基于大型语言模型的奖励函数: 一个辅助大型语言模型可用于评估智能体动作或通信的质量,为多智能体强化学习算法提供更密集、更具信息量的奖励信号。例如,一个大型语言模型裁判可以对通信消息的相关性或子目标的进展进行评分。
- 内在奖励: 智能体可能会因信息共享、提出澄清问题或减少不确定性等行为获得内在奖励,从而鼓励涌现 (emergence)的通信和协作。
4. 状态与观察表示:
在多智能体强化学习框架中有效表示大型语言模型智能体的状态很重要。
- 这不仅涉及编码外部环境,还包括对话历史、其他智能体的推断信念以及智能体自身的内部状态或记忆。
- 方法可能包括使用文本嵌入 (embedding)、知识图谱的结构化表示,或大型语言模型自身生成的摘要。
多智能体强化学习 (reinforcement learning)在大型语言模型智能体应用中的挑战
多智能体强化学习和大型语言模型的结合,尽管有前景,但也继承了两个领域的挑战并带来了新的问题:
- 可扩展性: 训练大量智能体的多智能体强化学习算法计算密集。当每个智能体都涉及大型语言模型推理 (inference)时,成本和时间可能会变得高昂。参数 (parameter)共享或侧重于更简单的多智能体强化学习算法等策略可能是必需的。
- 非平稳性: 当每个大型语言模型智能体调整其策略(例如:通过微调 (fine-tuning)或提示调整)时,环境对其他智能体而言会变得非平稳。集中训练与去中心化执行有所帮助,但这仍然是一个基本问题。
- 贡献分配: 确定哪个大型语言模型智能体的语言输出或工具使用促成了团队的成功或失败非常困难。大型语言模型动作的高维度和丰富的语义使这更加复杂。
- 部分可观察性: 大型语言模型智能体通常在信息不完整的情况下运行。在这种条件下学习有效策略很难。信念跟踪和表示变得更为重要。
- 庞大动作空间: 如果大型语言模型智能体的动作是生成文本,则动作空间巨大。多智能体强化学习算法难以处理如此大的空间。可能需要分层方法,或让大型语言模型提出动作,然后由更简单的策略选择。
- 样本效率: 多智能体强化学习算法出了名的样本需求大。每个样本可能涉及多次大型语言模型 API 调用,导致数据收集缓慢且昂贵。离线多智能体强化学习、基于模型的多智能体强化学习或运用模拟器等技术很重要。
- 训练环境设计: 有效的多智能体强化学习训练需要精心设计的环境或模拟器,能够支持多智能体互动并提供适当的反馈。为复杂的、由大型语言模型驱动的任务创建此类环境是一项艰巨的任务。
实际考量与未来展望
用于基于大型语言模型智能体协调的多智能体强化学习 (reinforcement learning)是一个进阶且快速发展的研究方向。它不是一个一劳永逸的解决方案,但对于以下问题来说,是一种有效的方法:
- 协调复杂且无法轻易硬编码。
- 智能体需要在动态环境中调整其协作策略。
- 期望出现涌现 (emergence)的通信和角色分工。
当前实际应用可能包括:
- 混合系统: 将学习到的多智能体强化学习策略与基于规则的系统或人机协作引导相结合。
- 较简单的子问题: 使用多智能体强化学习来优化协调的特定方面,例如资源分配或通信中的轮流,而不是端到端行为。
- 微调 (fine-tuning)大型语言模型以促进协作: 使用多智能体强化学习目标来微调大型语言模型,使其更好地协作,而不是从零开始训练整个策略。
随着研究的进展,我们期待看到更多针对大型语言模型智能体独特特征的更完善的多智能体强化学习算法,以及提高样本效率和管理训练复杂性的方法。为大型语言模型智能体团队开发专门的模拟环境也将对推动该方向至关重要。目前,结合多智能体强化学习需要对其原理有深刻理解、仔细的问题表述以及对实验和计算资源的大量投入。