大型语言模型,或简称LLM,在理解和生成类似人类的文本方面展现出显著的能力。您可能已经看到它们为各种应用提供支持,例如语言翻译、长文档摘要、回答问题,甚至创作诗歌。其本质是,这些模型是复杂的系统,通过大量文本数据训练,学习预测序列中的下一个词语。这使它们能够根据接收到的输入生成连贯且上下文相关的文本。然而,一个标准的大型语言模型,其本身主要在文本范围内运行。它可以描述如何执行一项任务,例如整理日程或在线查找信息,但无法直接执行这些行动。例如,大型语言模型可以撰写电子邮件,但无法按下“发送”按钮。它可以概述查询数据库的步骤,但无法自行执行查询。这种区别很重要:它们是强大的文本处理工具,但缺乏与数字环境交互并对其施加影响的内在能力。为了从仅仅处理或生成文本,转向在数字甚至物理环境中执行任务和实现目标,我们需要弥补这一差距。这正是“智能行动”的想法发挥作用的地方。我们希望系统不仅能理解请求,还能采取步骤来完成它。这需要的不仅仅是语言能力;它需要一种将理解转化为实际操作的方式。digraph G { rankdir=TB; fontname="Arial"; node [shape=box, style="rounded,filled", fontname="Arial", fontsize=10, margin="0.2,0.1"]; edge [fontname="Arial", fontsize=9]; subgraph cluster_llm_only { label="大型语言模型:文本输入,文本输出"; bgcolor="#e9ecef"; style=rounded; llm_core [label="大型语言模型 (LLM)\n(文本处理引擎)", fillcolor="#a5d8ff", shape=cylinder]; text_in [label="文本输入\n(例如,问题)", fillcolor="#ffec99"]; text_out [label="文本输出\n(例如,答案)", fillcolor="#b2f2bb"]; text_in -> llm_core; llm_core -> text_out; } subgraph cluster_agent { label="大型语言模型智能体:从思考到行动"; bgcolor="#e9ecef"; style=rounded; llm_brain [label="大型语言模型 (LLM)\n(智能体的推理核心)", fillcolor="#a5d8ff", shape=cylinder]; goal_in [label="目标 / 任务\n(例如,“查找今天的天气”)", fillcolor="#ffec99"]; action_executor [label="行动执行界面\n(工具、API、环境)", fillcolor="#96f2d7"]; outcome [label="行动结果 / 观察\n(例如,“天气晴朗”)", fillcolor="#b2f2bb"]; goal_in -> llm_brain [label=" 解释与决策"]; llm_brain -> action_executor [label=" 指示行动"]; action_executor -> outcome [label=" 执行任务"]; outcome -> llm_brain [label=" 告知下一步 (可选)", style=dashed, arrowhead=open]; } // Using an invisible edge to create space and flow between the subgraphs // This helps simulate the "evolution" visually without explicit text if preferred. // Adjust minlen for more or less space. dummy_spacer [shape=point, width=0, height=0, style=invis]; text_out -> dummy_spacer [style=invis, minlen=2]; dummy_spacer -> goal_in [style=invis]; }从主要处理文本的标准大型语言模型(左侧),演进到大型语言模型智能体(右侧)。在智能体中,大型语言模型的推理能力与行动执行界面结合,以执行任务。在为智能行动设计的系统中,大型语言模型通常充当认知核心,即“大脑”。它是负责理解总体目标、解释新信息、思考所需步骤以及决定下一步做什么的组件。大型语言模型在自然语言理解方面的优势使其能够以类似人类的方式处理给定的指令或目标。为了使这些决策转化为实际操作,大型语言模型被整合到一个更大的框架中。该框架为大型语言模型提供了访问“工具”或界面的权限。这些工具本质上是连接到其他软件、API(应用程序编程接口)、数据库或外部服务的功能或连接。例如,如果一个作为智能体一部分的大型语言模型决定需要查找当前天气,它不会尝试“虚构”天气。相反,它会使用一个预定义的“天气工具”,该工具在后台调用天气API。然后,API返回的结果(实际天气信息)会被反馈给大型语言模型,大型语言模型可以使用这些信息进行下一步操作或提供答案。可以将其想象成一位技艺高超的厨师。厨师(即大型语言模型)拥有大量的食谱、食材和烹饪技巧知识(其训练和推理能力)。厨师可以规划一顿复杂的饭菜(做出决策)。然而,要实际准备食物(采取行动),厨师需要一个配备烤箱、刀具和食材的厨房(即工具和环境)。大型语言模型智能体为大型语言模型提供了这个“厨房”,使其“思考”能够转化为“行动”。这种从大型语言模型作为纯粹基于文本的响应者,到其作为面向行动的系统中的推理引擎的转变,是重要的一步。它使我们能够构建出不仅能对话或撰写,还能通过与数字环境交互来协助甚至自动化各种任务的应用。理解这种转变是学习如何构建大型语言模型智能体的第一步,这正是我们将在本课程中研究的内容。我们将查看构成这些智能体的组件、它们如何推理和规划,以及您如何构建自己的智能体。