趋近智
一个AI代理,专为复杂的多步骤操作而设计,并非单一、不可分割的实体。它是一个由多个独立但相互关联的部件协同运作的系统。理解这些部件对于有效设计引导代理行为的提示非常重要。每个部分都有其特定作用,包括推理、决策、与外部环境互动以及记忆过往事件。
从宏观上看,这些部件使代理能够感知其环境(或输入),思考其目标,制定计划,执行操作,并从经验中学习。让我们审视一下这些常见的构成要素。
大多数现代AI代理的核心是一个大型语言模型(LLM)。该LLM作为代理主要的推理引擎或“大脑”。它负责:
LLM的选择(例如,来自OpenAI、Anthropic、Google的模型,或开源替代品)显著影响代理的能力。模型在复杂推理、指令遵循、编码方面的熟练程度,以及产生无用或不准确信息的倾向各不相同。您的提示工程策略通常需要根据所选LLM的特定优缺点进行调整。例如,一些LLM更擅长遵循结构化输出格式(如JSON),这对于工具使用很重要,而另一些则可能擅长创作性文本生成。
尽管LLM提供原始智能,但一个独立的规划与执行模块(通常称为控制器或协调器)管理代理的整体工作流程。该模块通常是一个程序化循环或框架,它:
这个控制器实现了大部分“代理式”行为。像ReAct(推理与行动)这样的流行代理架构定义了该控制器与LLM互动以将思考过程(推理)与行动交织的特定方式。这种控制循环的设计及其使用提示的方式是代理构建的一个核心方面。
对于一个需要跨越单一轮次或需要超出其即时输入知识来执行任务的代理来说,记忆不可或缺。记忆使代理能够:
通常,我们可以在代理系统中区分两种类型的记忆:
短期记忆(工作记忆): 这指的是代理可以立即访问的信息,通常在LLM的上下文窗口或“暂存区”内。
长期记忆: 这使代理能够在长时间内保留和回忆信息,超出单个会话或上下文窗口的限制。常见的实现方式有:
提示对于指导代理如何使用其记忆必不可少,例如,指示它为暂存区总结之前步骤,制定查询以从长期存储中检索信息,或决定何时以及哪些信息应提交到长期记忆中。
尽管LLM能力出众,但它们有固有限制。它们无法直接访问实时信息(其知识在训练时被固定),不能可靠地执行精确的数学计算,也无法与API、数据库或文件系统等外部系统互动。这就是工具发挥作用的地方。工具是代理可以用来增强其能力的外部资源或功能。示例包括:
代理有效使用工具的能力严重依赖于提示工程。提示用于:
工具使用机制通常涉及规划与执行模块解析LLM使用工具的请求(通常以JSON等特定格式表达),使用指定的输入执行该工具,然后将工具的输出反馈给LLM,以进行下一轮推理。
AI代理系统内部相互关联部件的宏观视图。控制器协调信息和行动的流程,LLM提供核心推理能力,记忆提供上下文,工具则扩展其与外部环境互动的能力。
这些核心部件,通过有效协调,使代理能够处理对于简单的、一次性LLM查询来说过于复杂的任务。随着本课程的进展,您将学习如何使用提示工程来影响这些部件,从而塑造代理的行为,提高其可靠性,并使其能够执行复杂的任务流程。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造