自主大型语言模型系统的组成部分

基于对代理能力的定义，我们现在分析构成自主大型语言模型系统运行主体的基本元素。理解这些组成部分对于设计、实施和分析复杂的代理行为非常重要。虽然具体的架构有所不同，但大多数自主大型语言模型系统都包含了以下四个主要模块的不同形式。

核心大型语言模型引擎

任何代理系统的中心都是大型语言模型本身。它作为中心认知引擎，负责：

自然语言理解： 处理用户请求、环境反馈和检索到的记忆内容。
推理 (inference)： 分析信息、推断关系、评估选项以及制定计划或中间思考。
自然语言生成： 表达思想、计划、工具查询和最终回应。
代码生成（常见）： 为特定工具或动作生成可执行代码，特别是在与编程环境或API交互时。

核心大型语言模型的选择会很大程度上影响代理的潜力。考虑因素包括模型固有的推理能力（例如，经过代码训练的模型通常表现出更强的逻辑推理能力）、指令遵循的准确性、上下文 (context)窗口限制，以及模型是否针对工具使用或规划等代理任务进行了微调 (fine-tuning)。与大型语言模型的交互通常通过精心构建的提示进行，这些提示引导其推理过程并引出期望的输出，例如计划、动作或反思。使用专有模型API与本地托管开源模型（延迟、成本、控制、数据隐私）之间的权衡也是主要的架构决策。

记忆模块

与标准、无状态的大型语言模型交互不同，自主代理需要记忆来维护上下文 (context)、从过去的交互中学习，并有效执行长期任务。记忆使代理能够将信息保留在核心大型语言模型有限的上下文窗口之外。我们可以大致分类记忆功能：

短期/工作记忆： 它保存与当前任务执行周期相关的临时信息。例子包括：
- 对话历史： 存储最近用户交互和代理回应的缓冲区。
- 便笺簿： 一个用于大型语言模型记录中间推理 (inference)步骤、计算或观察的临时空间，常见于ReAct等架构。其实现通常涉及在代理执行循环中管理或使用专用缓冲区类的简单数据结构。
长期记忆： 它为需要在多个会话或任务中保留的信息提供持久存储。常见实现包括：
- 向量 (vector)存储： 使用嵌入 (embedding)模型根据语义相似性存储和检索信息。向量数据库（例如Pinecone, Chroma, FAISS）经常被使用，根据当前上下文向代理提供相关文档、过往经验或知识片段（检索增强生成 (RAG)，RAG）。
- 结构化记忆： 采用传统数据库（SQL）或知识图谱（Neo4j）以结构化格式存储信息，允许精确查询和关系遍历。

有效的记忆管理需要读取相关信息、写入新经验或衍生知识、总结或整合信息以管理存储大小，以及决定哪些信息足够重要以保留的机制。这些读写操作和检索策略的设计是一个复杂的主题，将在第3章中进行更详细的说明。

规划模块

规划模块负责将高层目标转化为一系列可执行的步骤或动作。该模块解决了实现目标的“如何做”的问题。规划能力差异很大：

隐式规划： 通常通过特定的提示技术实现，大型语言模型本身在推理 (inference)过程中生成计划。像ReAct（推理+行动）这样的框架引导大型语言模型将思考/推理步骤与行动步骤交织起来，隐式地形成计划。自我提问也类似地使用迭代提问来分解问题。
显式规划： 涉及专用算法或模块，在执行开始前生成计划结构。这可能包括：
- 任务分解： 将复杂目标分解为更小、可管理的子任务。
- 分层规划： 在不同抽象层次创建计划（例如，高层策略与低层行动）。
- 基于搜索的规划： 检查潜在的行动序列，使用受经典AI规划或像思维树（ToT）等方法启发的技术，这些方法明确地考察了替代推理路径。

一个复杂的规划模块通常包括监控计划执行、检测失败或意外结果，并相应调整计划（重新规划或自我纠正）的能力，我们将在第4章中进行分析。

动作执行模块（工具使用）

为了影响或收集信息，代理需要一个动作执行模块。该组成部分连接了代理的内部推理 (inference)/规划与外部环境。它的职责包括：

工具定义与选择： 提供一组预定义工具（例如，API客户端、数据库查询引擎、代码解释器、网页搜索功能），并使代理（通常由大型语言模型和规划器引导）能够为给定步骤选择合适的工具。工具通常需要清晰的描述（文档字符串、模式），以便大型语言模型理解其目的和参数 (parameter)。
输入准备： 根据大型语言模型的指令格式化调用所选工具所需的数据（例如，构建API请求负载、形成数据库查询）。
执行： 调用工具/API。
输出解析与反馈： 处理工具返回的结果（例如，API回应、数据库记录、代码执行输出或错误），并将这些信息格式化为自然语言观察结果，可以反馈到大型语言模型核心进行下一个推理周期。

动作执行需要仔细的错误处理（例如，管理API超时、无效回应、权限问题），以及在工具失败时可能实施重试机制或替代策略。

组成部分交互流程

这些组成部分并非独立运作。它们在一个执行循环中相互连接，常被视为观察-判断-决策-行动（OODA）或推理 (inference)-行动循环。一个典型流程包括接收输入（观察），使用大型语言模型核心和记忆对其进行处理（判断/推理），通过规划模块确定下一步（决策），并通过动作执行模块与环境交互（行动）。动作的结果随后成为一个新的观察，重新启动该循环。

高层交互图，展示了自主大型语言模型代理系统的核心组成部分和典型数据流。

这些组成部分的具体实现、复杂程度和侧重点，决定了所产生的代理的架构和能力。后续章节将分析ReAct、思维树等高级架构中这些组成部分的具体实例，以及包含多样化记忆结构的系统。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao, 2022 arXiv preprint arXiv:2210.03629 DOI: 10.48550/arXiv.2210.03629 - 介绍了ReAct框架，它将推理和行动交织在一起，影响了LLM智能体的草稿式记忆和隐式规划。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan, 2023 NeurIPS 2023 DOI: 10.48550/arXiv.2305.10601 - 介绍了用于LLM深思熟虑问题解决的思维树框架，探索了显式规划的不同推理路径。
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, 2020 Advances in Neural Information Processing Systems, Vol. 33 (Curran Associates, Inc.) DOI: 10.48550/arXiv.2005.11401 - 关于检索增强生成的基础论文，对于通过向量存储在LLM系统中构建长期记忆至关重要。
Generative Agents: Interactive Simulacra of Human Behavior, Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein, 2023 arXiv preprint arXiv:2304.03442 DOI: 10.48550/arXiv.2304.03442 - 研究了具有复杂记忆和规划的生成式智能体的设计，展示了类人的涌现行为。