趋近智
引导智能体通过思维链(Chain-of-Thought)等方法进行推理有助于结构化其内部思考过程,但许多任务要求智能体不仅仅是一次性地将问题想清楚。为了有效地进行交互或使用工具来获取信息,智能体通常需要采取行动,观察发生的事情,然后决定下一步该怎么做。这种思考和行动的迭代过程是 ReAct 这一广为人知且高效的框架的核心。
ReAct 代表“推理和行动”(Reason and Act)。它是一种方法,让大型语言模型(LLM)智能体能够以结构化的方式结合推理和行动。ReAct 智能体不是试图从头到尾制定一个完整的计划并盲目执行,而是将任务分解为一系列小步骤。在每一步,它都会经历一个循环:对当前情况进行推理,决定一个行动,执行该行动,然后观察结果。
ReAct 框架的核心是一个包含三个主要部分的迭代循环:
search("柏林当前温度") 或 calculator("125 * 4.5")。这个“思考-行动-观察”循环会重复进行。上一步的观察结果会告诉 LLM 下一步的思考方向,使其能够评估进展,必要时调整计划,并决定后续的行动。循环持续进行,直到智能体判定整体目标已经实现,届时它可能会采取最终行动来提供答案或完成任务。
让我们来看看这个流程图:
ReAct 框架以循环方式运行,智能体在此过程中思考、行动、观察结果,然后根据新信息再次思考。
想象一下,你问智能体:“2023年国际足联女足世界杯冠军队最后一场比赛的比分是多少?”
ReAct 智能体可能会按以下方式进行(简化版):
search("2023年国际足联女足世界杯冠军")search("西班牙女足国家队最后一场比赛比分")finish("2023年国际足联女足世界杯的冠军队是西班牙。他们最后一场比赛的比分是西班牙2-0瑞典。")在这个例子中,LLM 不仅仅是一次性生成最终答案。它明确地表达其计划(“思考”部分),选择工具(“行动”部分,这里是 search 和 finish),然后整合新信息(“观察”部分)来指导其后续步骤。运行 LLM 的智能体系统负责解析 Action 字符串,调用相应的工具,然后通过将其包含在下一个提示中,将 Observation 反馈给 LLM。
ReAct 方法为构建更强大的智能体提供了以下几个优势:
与思维链(CoT)提示等技术相比,后者主要侧重于在生成最终输出之前产生连贯的推理过程,ReAct 则在一个持续的循环中结合了推理、行动和环境反馈。CoT 帮助 LLM“理清思路”,而 ReAct 则帮助它“思考、行动、并迭代学习”。
通过围绕这个推理、行动和观察的循环来构建智能体的运作方式,ReAct 框架使我们能够构建更具交互性、适应性强、并且能够处理需要外部信息或行动的多步骤任务的智能体。在后续内容中,你将看到这种模式是如何成为许多类型 LLM 智能体的基本构成要素的。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造