当多个智能体互动时,特别是当它们目标或信息不一致时,它们的决策过程会相互依赖。一个智能体的结果通常决定性地取决于其他智能体选择的行动。为了正式分析这些策略性互动并预测其结果,我们引入博弈论。这门学科提供了一个数学框架,用于理解理性决策者之间涉及冲突与合作的情形。在多智能体大型语言模型(LLM)系统中,博弈论有助于我们设计更有效的协调机制,预测浮现行为,甚至编程智能体以策略性方式行动。本质上,此处的“博弈”指的是任何多个参与者或“玩家”(我们的智能体)做出影响彼此结果的决策的情形。一场博弈的主要组成部分包括:参与者:这些是您系统中的自主智能体。在大型语言模型语境下,每个智能体,拥有自己的大型语言模型核心、角色设定和目标,都充当一个参与者。行动:智能体在任何特定时间点可以做出的一套可能的选择或行动。对于大型语言模型智能体而言,行动范围可以是从生成特定文本、查询数据库、调用工具到向另一智能体发送特定消息。收益(效用):这些表示智能体在博弈给定结果下获得的价值或回报。收益由所有参与者采取的行动组合决定。为大型语言模型智能体定义合适的效用函数是一项重要的设计难题,因为它们的目标可能复杂或以语言形式指定。例如,一个智能体的收益可能与任务完成准确性、资源效率或遵守特定角色设定相关联。信息:这描述了每个智能体对博弈的了解,包括规则、其他智能体的可能行动,以及它们可能了解的收益函数。博弈可以涉及完全信息(所有人都知道所有事)或不完全信息(某些方面是隐藏的),这极大地影响策略。理解这些组成部分使我们能够分类和分析不同类型的策略性对抗。多智能体系统中的博弈类型您的多智能体系统中互动的性质将决定所进行的博弈类型。识别这些类型对于选择合适的分析技术或设计模式来说很重要。合作博弈与非合作博弈:在合作博弈中,智能体可以形成有约束力的协议,并共同努力实现共同目标。重点通常在于联盟的形成方式以及联合收益如何分配。虽然大型语言模型可以被指示合作,但如果没有外部机制,强制执行“有约束力的协议”可能会有难度。非合作博弈假设智能体为自身利益行动,以最大化其个体收益。这种模型通常更直接地适用于大型语言模型智能体互动,除非构建了明确的合作框架。即使是设计为提供帮助的智能体,也可能面临局部优化与全局最优冲突的困境。零和博弈与非零和博弈:在零和博弈中,所有参与者的总收益是恒定的。一个智能体的获益直接是另一个智能体的损失。可以想象智能体竞争严格受限、不可共享的资源的情形。非零和博弈在复杂多智能体系统中更常见。在这里,收益的总和可以变化。智能体的利益可以是一致的(共同获益)、对立的(一方获益,一方损失)或混合的。协作解决问题,即智能体为共享解决方案做出贡献,通常是非零和的;有效的协作会带来所有人的高收益,而不良的协调则可能导致所有人的低收益。同时博弈与序列博弈:在同时博弈中,智能体同时选择它们的行动,或者在不知道其他智能体当前选择的情况下进行。这些通常使用收益矩阵来表示。在序列博弈中,智能体轮流做出决策,后手玩家对先前的行动有一些了解。这些通常使用博弈树来建模。许多大型语言模型智能体对话或多步骤任务执行都可以看作是序列博弈。重复博弈:许多智能体互动并非一次性事件。在重复博弈中,智能体多次互动。这使得声誉、信任以及依赖过去行为的策略(例如,“针锋相对”)得以建立。对于那些持续存在并随时间互动的大型语言模型智能体,重复博弈的动态特别适用于促进长期合作。解的设想:预测结果博弈论提供了“解的设想”来预测理性智能体可能如何行动以及可能出现的结果。优势策略:如果一个行动能为智能体带来最佳收益,无论其他智能体选择何种行动,那么该行动就是该智能体的优势策略。如果所有智能体都拥有优势策略,那么博弈的结果就易于预测。纳什均衡:纳什均衡是一组策略,每个智能体一个,使得在其他智能体坚持其策略的情况下,任何智能体都不能通过单方面改变自身策略来提高其收益。它代表了博弈中的一个稳定状态。一场博弈可以有一个、多个或没有纳什均衡。寻找纳什均衡可能计算密集,特别是当智能体或行动数量众多时。一个结果是纳什均衡不一定意味着它是对群体而言的最佳整体结果(参见帕累托最优)。帕累托最优:一个结果是帕累托最优的,如果存在这样一种情形:在不使任何其他智能体境况变差的情况下,无法使至少一个智能体境况变好。它是集体效率的衡量标准。多智能体系统设计中的一项重要挑战是创建能够让纳什均衡与帕累托最优结果一致的环境或激励。例证让我们考虑两个经典的博弈论例子及其与大型语言模型智能体互动的相关性。囚徒困境设想两个智能体(A和B)涉嫌共同犯错(例如,提供了导致系统错误的冲突信息)。它们被分开审讯。如果两者都合作(保持沉默,或在大型语言模型术语中,承认共享的轻微疏忽),它们都将受到轻微惩罚(例如,各扣1分)。如果智能体A背叛(指责B)而智能体B合作,A将免于处罚(0分),而B将受到严厉惩罚(-10分)。反之亦然。如果两者都背叛(互相指责),它们都将受到中等惩罚(-5分)。digraph PrisonerDilemma { rankdir=TB; node [shape=plaintext, style="rounded,filled", fillcolor="#ffffff"]; edge [arrowhead=none]; tbl [label=< <TABLE BORDER="0" CELLBORDER="1" CELLSPACING="0" BGCOLOR="#ffffff"> <TR><TD ROWSPAN="2" COLSPAN="2" BORDER="0"></TD><TD COLSPAN="2" BGCOLOR="#495057" ALIGN="CENTER"><FONT COLOR="#ffffff">智能体B</FONT></TD></TR> <TR><TD BGCOLOR="#adb5bd" ALIGN="CENTER">合作</TD><TD BGCOLOR="#adb5bd" ALIGN="CENTER">背叛</TD></TR> <TR><TD ROWSPAN="2" BGCOLOR="#495057" ALIGN="CENTER" VALIGN="MIDDLE"><FONT COLOR="#ffffff">智能体A</FONT></TD> <TD BGCOLOR="#ced4da" ALIGN="CENTER">合作</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef" PORT="c1">(-1, -1)<BR/><FONT POINT-SIZE="10">系统审计:小问题</FONT></TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef" PORT="d1">(-10, 0)<BR/><FONT POINT-SIZE="10">B被标记,A无责</FONT></TD></TR> <TR> <TD BGCOLOR="#ced4da" ALIGN="CENTER">背叛</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef" PORT="c2">(0, -10)<BR/><FONT POINT-SIZE="10">A无责,B被标记</FONT></TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef" PORT="d2">(-5, -5)<BR/><FONT POINT-SIZE="10">系统审计:大问题</FONT></TD></TR> </TABLE> >]; }两个大型语言模型智能体之间囚徒困境情形的收益矩阵。数值表示(智能体A的收益,智能体B的收益)。背叛是两者的优势策略,从而形成纳什均衡(-5, -5),这比它们合作(-1, -1)的情况对两者都更糟。在此情形中,“背叛”是两个智能体的优势策略。无论另一个智能体做什么,每个智能体背叛都会境况更好。纳什均衡是(背叛,背叛),结果为(-5, -5)。然而,这是帕累托低效的,因为收益为(-1, -1)的结果(合作,合作)会使两个智能体都境况更好。这说明了个体理性和集体福祉之间的冲突,这是多智能体系统中的常见情形,其中智能体可能为了个体获益而隐瞒信息或资源,即使这会损害整体系统性能。在重复互动中,像“针锋相对”(最初合作,然后模仿对手的上次行动)这样的策略可以促进合作。协调博弈考虑两个大型语言模型智能体,它们需要通过选择共享文档格式(例如,Markdown或PDF)来协作撰写一份报告。如果两者都选择Markdown,它们成功协作(例如,各获益10分)。如果两者都选择PDF,它们也成功协作(各获益10分)。如果一个选择Markdown而另一个选择PDF,协作失败(各获益0分)。digraph CoordinationGame { rankdir=TB; node [shape=plaintext, style="rounded,filled", fillcolor="#ffffff"]; tbl [label=< <TABLE BORDER="0" CELLBORDER="1" CELLSPACING="0" BGCOLOR="#ffffff"> <TR><TD ROWSPAN="2" COLSPAN="2" BORDER="0"></TD><TD COLSPAN="2" BGCOLOR="#495057" ALIGN="CENTER"><FONT COLOR="#ffffff">智能体B</FONT></TD></TR> <TR><TD BGCOLOR="#adb5bd" ALIGN="CENTER">使用Markdown</TD><TD BGCOLOR="#adb5bd" ALIGN="CENTER">使用PDF</TD></TR> <TR><TD ROWSPAN="2" BGCOLOR="#495057" ALIGN="CENTER" VALIGN="MIDDLE"><FONT COLOR="#ffffff">智能体A</FONT></TD> <TD BGCOLOR="#ced4da" ALIGN="CENTER">使用Markdown</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef">(10, 10)</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef">(0, 0)</TD></TR> <TR> <TD BGCOLOR="#ced4da" ALIGN="CENTER">使用PDF</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef">(0, 0)</TD> <TD ALIGN="CENTER" BGCOLOR="#e9ecef">(10, 10)</TD></TR> </TABLE> >]; }一个协调博弈,其中智能体必须选择相同的文档格式。存在两个纳什均衡:(Markdown,Markdown)和(PDF,PDF)。沟通或预先设定的约定对于选择其中一个来说非常重要。在此,存在两个纳什均衡:(Markdown,Markdown)和(PDF,PDF)。两者都是帕累托最优的。挑战在于智能体如何在这些均衡中协调选择一个。如果没有沟通或预先设定的约定,它们可能会未能协调。这强调了通信协议和共享知识(如第3章所述)对于解决协调问题的重要性。博弈论与大型语言模型智能体设计将博弈论应用于大型语言模型智能体涉及几项考量:提示以实现策略行为:我们可以设计提示,鼓励特定的策略性立场。例如,一个智能体可能被提示:“您正在与另一个智能体互动。您的主要目标是最大化团队分数。如果您无法确定团队的最佳利益,请优先最大化您的个体分数。”这旨在在博弈论语境下引导大型语言模型的推理过程。大型语言模型作为参与者与作为设计者:大型语言模型可以直接作为参与者参与这些策略性互动。或者,大型语言模型可以在更高层次上用于分析更简单智能体系统中的博弈动态,甚至帮助设计互动规则(即“机制设计”),以鼓励期望的系统级结果。为大型语言模型定义效用:量化大型语言模型的收益并非易事。它们的目标通常以自然语言表达,并且可能是多方面的。将这些映射到博弈论分析所需的标量效用值可能是一种近似。有时,相对偏好或排序可能更可行。大型语言模型的有限理性:经典博弈论通常假设完全理性。大型语言模型虽然能够进行复杂推理,但并非完全理性的优化者。它们的决策可能受到提示措辞、训练数据中的偏差或其生成过程中固有的随机性影响。这种“有限理性”意味着它们的行为可能偏离理论预测,为一个值得深入研究的方向。可扩展性:随着智能体、行动或状态数量的增加,正式的博弈论分析变得非常复杂。对于大型语言模型集合,直接应用经典解的设想可能难以处理。抽象、启发式方法或基于学习的方法(如接下来讨论的多智能体强化学习)变得必要。基础模型之外尽管所讨论的设想提供了坚实的基础,但博弈论的范围很广。对于更高级的多智能体系统,您可能会遇到:机制设计(逆向博弈论):机制设计不分析现有博弈,而是专注于设计博弈规则(即机制),以实现特定的系统级目标,同时假设智能体将根据这些规则策略性地行动。这对于设计任务分配中的拍卖或信息获取系统来说非常有用。贝叶斯博弈:这类博弈中,智能体对博弈的某些方面(例如其他智能体的收益函数)拥有不完全信息。智能体保持对这些未知元素的信念(概率),并根据观察到的行动更新信念。演化博弈论:这研究策略如何通过学习、模仿或选择等过程在智能体群体中随时间演化。它更少关注一次性理性计算,更多地关注群体中策略分布的动态。通过博弈论来理解策略性互动的原理,您将获得分析、预测和影响智能体集体的宝贵工具。尽管大型语言模型带来了新的复杂性和机遇,但相互依赖的决策如何影响结果的基本逻辑仍然是设计复杂多智能体系统的一个重要方面。这种理解为研究智能体如何学习协调和做出决策奠定了基础,特别是通过像多智能体强化学习这样的方法。