行动前思考

为了让LLM智能体能实现超出单一、直接回复的功能，它需要一种方法来弄清楚一系列行动。这种方法便是“先思后行”，也就是基础规划。智能体若具备规划能力，将不再仅仅对即时输入做出反应，而是能够制定一系列步骤以达成一个更复杂的目标。

LLM 作为“思考者”

这个规划过程的核心通常就是大型语言模型本身。你已经了解到LLM是智能体的认知引擎；在这里，它扮演着一个基本的规划者角色。给定一个目标（来自你的指令）和一套可用的工具，LLM可以判断：

首先需要做什么？
下一步需要哪些信息？
如果适用，哪个工具适合某个特定步骤？
这些步骤应该以什么顺序执行？

这种“思考”在基本智能体中不一定涉及一个复杂的、独立的规划算法。通常，这是仔细提示的结果，这些提示促使LLM概述步骤或决定下一步行动。例如，你可能会指示LLM在选择行动之前“逐步思考”或“制定计划”。

从目标到可执行步骤

许多任务过于复杂，无法通过单一行动解决。想象一下，要求一个智能体“计划一次到附近城市的周末旅行”。一个简单的、一次性回复不会有太大帮助。相反，智能体需要将其分解。这个过程通常被称为任务分解。

在LLM的指导下，智能体可能会将“计划一次周末旅行”的目标分解为更小、更易管理的子任务：

找到附近有趣的城市。
在指定日期检查这些城市的活动或景点。
寻找住宿选择。
建议交通方式。
整理一份潜在的行程。

每个子任务都可能涉及使用工具（如搜索引擎或地图服务）或LLM的进一步判断。形成这样一种序列的能力是智能体能力的一个基本方面。它将LLM从文本生成器转变为行动的协调者。

以下图表展示智能体如何将一个高层目标分解为一系列更小、更易管理的任务。

LLM判断用户的请求并概述一系列子任务，可能涉及不同的工具或检查，以达成总体目标。

简单规划：一个起点

我们这里讨论的规划通常相当直接。它可能涉及LLM生成它打算采取的带编号的行动列表，或根据当前情况在两三个可能的下一步之间做出决定。这与传统人工智能中复杂的、长期规划算法有所不同，但相较于非智能体LLM交互是一个很大的提升。

例如，如果一个智能体被问到：“巨人队上一场比赛的比分是多少？他们下一场预定的比赛是什么时候？”LLM可能会内部决定：

使用体育API工具查找最近一场巨人队比赛的比分。
使用相同的工具（或另一个）查找他们下一场预定的比赛。
将这些信息整合成一个连贯的答案。

这种内部的“决策树”或序列是基本规划的一种形式。它确保智能体收集所有必要信息并按逻辑顺序执行行动。随着你对LLM智能体理解的增进，你会遇到更复杂的规划技术（例如第5章中讨论的思维链或ReAct）。目前，重要的一点是，智能体能够并且通常必须“思考”其行动的序列，以有效地完成任务。这种规划能力是更自主、更有用智能体行为的组成部分。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Huai hsin Chi, F. Xia, Quoc Le, Denny Zhou, 2022 ArXiv, Vol. abs/2201.11903 - 介绍思维链提示方法，鼓励大型语言模型生成中间推理步骤，提高其解决复杂任务的能力。
ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao, 2022 arXiv preprint - 提出ReAct框架，使大型语言模型能够交错进行推理和行动，从而实现动态规划并与外部环境和工具交互。