大型语言模型(LLM)不仅仅是复杂的文本预测器;它们正在成为能够行动的系统的中心。虽然标准的LLM或简单的聊天机器人主要通过根据您的输入生成文本来进行对话,但LLM代理则更进一步。但这个“更进一步”到底意味着什么?LLM代理究竟是什么?就其本质而言,一个LLM代理是一个旨在达成特定目标的系统。它使用LLM作为其主要的推理引擎,就像大脑一样,用于理解指令、做出决策和规划行动。与仅仅向LLM提问并获得文本回复不同,代理的设计是为了与周围环境互动以完成任务。可以这样理解:标准的LLM互动就像与一个知识渊博但只能口头回应的人交谈。你问,他答。LLM代理则像那个知识渊博的人,同时拥有手、工具和一项任务。他们不仅仅是说话;他们会行动。LLM作为代理的核心处理器大型语言模型是赋予代理智能的主要组成部分。当代理获得一项任务时,例如“找到我附近现在营业且意大利面评价不错的前三家意大利餐厅”,LLM不会仅仅尝试从其训练数据(可能已过时)中回忆这些信息。相反,它会推理如何达成这个目标。它可能会将任务分解为:需要知道当前位置(如果未提供)。需要搜索意大利餐厅。需要按“现在营业”进行筛选。需要专门查看意大利面的评价。需要选择前三家。使用工具采取行动这种推理会促使行动。代理通常配备有工具,这实际是函数或与其他服务的连接,让它们能够与环境互动。以我们的餐厅为例,工具可能包括:一个用于获取您设备当前位置的工具(需经许可)。一个用于执行网络搜索的工具(例如,“[位置]附近的意大利餐厅”)。一个用于解析搜索结果并提取营业时间、评论摘要等信息的工具。LLM决定计划当前步骤中哪个工具是合适的,为该工具制定正确的输入(例如,搜索查询),然后解释工具的输出以决定下一步行动。如果某个工具失败或返回意外信息,LLM可以推理如何进行,也许是尝试不同的工具或调整其方法。观察-思考-行动循环许多代理都遵循一个被称为“观察、思考、行动”的基本循环:观察:代理收集有关其当前状态及其环境的信息。这可以是用户的初始请求、传感器数据,或先前使用的工具的输出。思考:LLM处理这些观察结果,考虑整体目标,并决定下一个最佳行动。这是LLM推理能力展现之处。行动:代理执行所选的行动,通常是使用其工具之一。此行动会改变环境状态或代理的内部状态。这个循环会重复,直到目标达成,或代理确定无法达成。下面是一个描绘此一般流程的图表:digraph G { rankdir=TB; bgcolor="transparent"; node [shape=box, style="filled", fontname="Arial", margin=0.2]; edge [fontname="Arial", fontsize=10]; Goal [label="用户目标", fillcolor="#e9ecef", color="#495057"]; LLM [label="LLM(大脑)\n推理与决策行动", fillcolor="#74c0fc", color="#1c7ed6"]; Action [label="行动\n(例如,使用工具,查询API)", shape=ellipse, style=filled, fillcolor="#69db7c", color="#37b24d"]; Environment [label="环境\n(例如,网页、文件、API)", fillcolor="#ffec99", color="#f59f00"]; Observation [label="观察\n(结果,新数据)", shape=ellipse, style=filled, fillcolor="#ffd8a8", color="#fd7e14"]; Goal -> LLM [label="代理输入", color="#495057"]; LLM -> Action [label="确定与启动", color="#495057"]; Action -> Environment [label="交互 / 修改", color="#495057"]; Environment -> Observation [label="提供反馈 /\n新状态", color="#495057"]; Observation -> LLM [label="为下一循环的思考提供信息", color="#495057"]; }此图描绘了代理如何接收用户目标,使用其LLM“大脑”决定行动,利用工具与环境互动,然后观察结果以指导其下一步。LLM代理的特点所以,总结来说,LLM代理的特点是:目标驱动:它有一个明确的目标,并努力达成。LLM驱动推理:它使用LLM来理解、规划和决策。工具使用:它可以运用各种工具与外部系统互动或完成专门任务。互动循环:它经常在感知环境、思考和行动的循环中运作。自主程度:一旦给定目标,它就可以采取多个步骤来达成,而无需每一步都进行人工干预。这不意味着它有意识或完全独立,而是指它可以根据其程序和LLM的指导执行一系列操作。正是LLM推理能力与采取行动并与环境互动的能力相结合,才真正定义了LLM代理。它是一个从简单的文本生成转变为积极参与完成任务的系统。