大型语言模型(LLM)是我们智能体的推理 (inference)核心。它们能理解指令,生成文本,甚至根据其训练数据量进行逻辑推断。然而,LLM本身在一个封闭系统中运行。它的知识停留在上次训练更新的时间点,并且无法直接感知或与训练数据之外的任何事物交互。这意味着仅依赖LLM的智能体,无论多么高级,都面临一些基本限制:
- 过时信息:LLM不知道今天新闻发生了什么,股票的当前价格,或者您窗外现在是否下雨。它的知识库是静态的。
- 无法执行行动:它无法发送电子邮件,更新数据库,预订日历日程,或控制任何外部设备。它可以生成电子邮件的文本,但无法实际发送。
- 专业能力有限:尽管LLM可以进行一些数学推理,但它们无法可靠地进行精确计算。它们可以编写代码,但无法执行代码以查看其是否有效或获取结果。
- 无法访问私人数据:LLM无法访问您的个人文件、您公司内部的知识库,或任何私人实时数据流,除非在提示中明确提供,而这也有其局限性。
如果没有能力克服这些限制,LLM智能体将受到严重限制。想象一下,让一个智能体为您计划下周的旅行。它可能能够根据其训练数据推荐目的地,但它无法查询航班可用性,比较当前酒店价格,或查询近期可能变更的签证要求。该智能体更像一个知识渊博的对话者,而非一个高效的助手。
这就是工具变得不可或缺的原因。**工具是LLM智能体可以使用的外部功能或资源,用于收集信息、执行行动或处理超出其固有能力范围的数据。**它们充当智能体的感官和手,将LLM的推理能力与其周围的交互环境连接起来。
考虑以下情况:
- 获取实时信息:如果智能体需要知道巴黎的当前天气,它可以使用连接到天气API的“天气工具”。LLM制定查询,工具获取数据,然后LLM在其回应或后续行动中使用此信息。
- 进行精确计算:对于像“计算A、B、C项的总成本,包括7%的销售税”这样的任务,智能体可以使用“计算器工具”。LLM识别出需要计算,将数字和操作传递给工具,并接收精确结果。
- 与其他软件交互:要“将'购买杂货'添加到我的待办事项列表”,智能体将使用一个专门设计用于与您的待办事项应用程序API交互的工具。LLM理解意图,工具执行行动。
- 搜索数据库:如果智能体需要在大型企业知识库中查找特定文档,连接到该数据库的“搜索工具”非常重要。
以下图表展示了智能体在拥有工具时响应查询能力的变化:
没有工具的智能体只能依赖其静态训练数据,而有工具的智能体可以访问外部的动态信息或执行特定行动。
为智能体配备工具带来多项重要优势:
- 获取最新数据:智能体可以从互联网或其他实时数据源获取最新信息。
- 能力扩展:它们可以执行数学计算、代码执行或与文件交互等任务,这些都超出LLM核心优势范围。
- 与外部系统交互:智能体可以连接并控制其他软件、API,甚至物理设备。
- 弥补知识空白:工具提供了一种补充LLM训练数据与专业或专有信息的方式。
- 提高可靠性和准确性:对于需要精度(如算术)或真实、最新信息的任务,工具比依赖LLM可能“胡说”或回忆过时事实要可靠得多。
- 行动导向的表现:工具将智能体从主要的信息处理者转变为能够采取实际行动并在数字或物理环境中实现改变的实体。
“本质上,工具是必要的,因为它们允许LLM智能体摆脱预训练 (pre-training)知识和被动文本生成的束缚。它们使智能体变得更动态、更准确,并成为真正有用的助手,能够处理更广泛的复杂问题。没有工具,智能体主要是一个思考者;有了工具,它就变成了行动者。随着我们继续,您将学习如何识别、创建并将这些重要组成部分整合到您的智能体中。”