趋近智
基于对代理能力的定义,我们现在分析构成自主大型语言模型系统运行主体的基本元素。理解这些组成部分对于设计、实施和分析复杂的代理行为非常重要。虽然具体的架构有所不同,但大多数自主大型语言模型系统都包含了以下四个主要模块的不同形式。
任何代理系统的中心都是大型语言模型本身。它作为中心认知引擎,负责:
核心大型语言模型的选择会很大程度上影响代理的潜力。考虑因素包括模型固有的推理能力(例如,经过代码训练的模型通常表现出更强的逻辑推理能力)、指令遵循的准确性、上下文窗口限制,以及模型是否针对工具使用或规划等代理任务进行了微调。与大型语言模型的交互通常通过精心构建的提示进行,这些提示引导其推理过程并引出期望的输出,例如计划、动作或反思。使用专有模型API与本地托管开源模型(延迟、成本、控制、数据隐私)之间的权衡也是主要的架构决策。
与标准、无状态的大型语言模型交互不同,自主代理需要记忆来维护上下文、从过去的交互中学习,并有效执行长期任务。记忆使代理能够将信息保留在核心大型语言模型有限的上下文窗口之外。我们可以大致分类记忆功能:
有效的记忆管理需要读取相关信息、写入新经验或衍生知识、总结或整合信息以管理存储大小,以及决定哪些信息足够重要以保留的机制。这些读写操作和检索策略的设计是一个复杂的主题,将在第3章中进行更详细的说明。
规划模块负责将高层目标转化为一系列可执行的步骤或动作。该模块解决了实现目标的“如何做”的问题。规划能力差异很大:
一个复杂的规划模块通常包括监控计划执行、检测失败或意外结果,并相应调整计划(重新规划或自我纠正)的能力,我们将在第4章中进行分析。
为了影响或收集信息,代理需要一个动作执行模块。该组成部分连接了代理的内部推理/规划与外部环境。它的职责包括:
动作执行需要仔细的错误处理(例如,管理API超时、无效回应、权限问题),以及在工具失败时可能实施重试机制或替代策略。
这些组成部分并非独立运作。它们在一个执行循环中相互连接,常被视为观察-判断-决策-行动(OODA)或推理-行动循环。一个典型流程包括接收输入(观察),使用大型语言模型核心和记忆对其进行处理(判断/推理),通过规划模块确定下一步(决策),并通过动作执行模块与环境交互(行动)。动作的结果随后成为一个新的观察,重新启动该循环。
高层交互图,展示了自主大型语言模型代理系统的核心组成部分和典型数据流。
这些组成部分的具体实现、复杂程度和侧重点,决定了所产生的代理的架构和能力。后续章节将分析ReAct、思维树等高级架构中这些组成部分的具体实例,以及包含多样化记忆结构的系统。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造