LLM Agent 到底是什么？

大型语言模型（LLM）不仅仅是复杂的文本预测器；它们正在成为能够行动的系统的中心。虽然标准的LLM或简单的聊天机器人主要通过根据您的输入生成文本来进行对话，但LLM代理则更进一步。但这个“更进一步”到底意味着什么？LLM代理究竟是什么？

就其本质而言，一个LLM代理是一个旨在达成特定目标的系统。它使用LLM作为其主要的推理 (inference)引擎，就像大脑一样，用于理解指令、做出决策和规划行动。与仅仅向LLM提问并获得文本回复不同，代理的设计是为了与周围环境互动以完成任务。

可以这样理解：

大型语言模型是赋予代理智能的主要组成部分。当代理获得一项任务时，例如“找到我附近现在营业且意大利面评价不错的前三家意大利餐厅”，LLM不会仅仅尝试从其训练数据（可能已过时）中回忆这些信息。相反，它会推理 (inference)如何达成这个目标。

它可能会将任务分解为：

这种推理 (inference)会促使行动。代理通常配备有工具，这实际是函数或与其他服务的连接，让它们能够与环境互动。以我们的餐厅为例，工具可能包括：

LLM决定计划当前步骤中哪个工具是合适的，为该工具制定正确的输入（例如，搜索查询），然后解释工具的输出以决定下一步行动。如果某个工具失败或返回意外信息，LLM可以推理如何进行，也许是尝试不同的工具或调整其方法。

许多代理都遵循一个被称为“观察、思考、行动”的基本循环：

这个循环会重复，直到目标达成，或代理确定无法达成。

下面是一个描绘此一般流程的图表：

此图描绘了代理如何接收用户目标，使用其LLM“大脑”决定行动，利用工具与环境互动，然后观察结果以指导其下一步。

所以，总结来说，LLM代理的特点是：

目标驱动：它有一个明确的目标，并努力达成。
LLM驱动推理 (inference)：它使用LLM来理解、规划和决策。
工具使用：它可以运用各种工具与外部系统互动或完成专门任务。
互动循环：它经常在感知环境、思考和行动的循环中运作。
自主程度：一旦给定目标，它就可以采取多个步骤来达成，而无需每一步都进行人工干预。这不意味着它有意识或完全独立，而是指它可以根据其程序和LLM的指导执行一系列操作。

正是LLM推理能力与采取行动并与环境互动的能力相结合，才真正定义了LLM代理。它是一个从简单的文本生成转变为积极参与完成任务的系统。

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Toolformer: Language Models That Can Use Tools, Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom, 2023 arXiv preprint - 提出了一种训练语言模型使用外部工具（如搜索引擎、计算器）的方法，通过学习对API调用进行自监督，这是大型语言模型代理执行行动的基础。
Function calling and the OpenAI API, OpenAI, 2023 (OpenAI Blog) - OpenAI官方博客文章，详细介绍了其模型如何可靠地调用外部函数，这是大型语言模型代理利用工具与环境交互的实际实现。
A Survey on Large Language Model Based Autonomous Agents, Lei Wang, Chen Ma, Xueyang Feng, Zhiyuan Liu, Maosong Sun, Lei Hou, 2023 arXiv preprint DOI: 10.48550/arXiv.2308.11432 - 对基于大型语言模型的自主代理领域进行了全面概述，涵盖了其架构、组成部分和应用，是很好的入门资料。
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, 2022 arXiv preprint - 介绍了思维链（CoT）提示技术，该技术使大型语言模型能够通过生成中间步骤来执行复杂推理，这对于代理规划和思考任务的能力至关重要。