代理提示实现中的常见问题

代理系统中的提示设计，即使开发者对代理架构和提示基本原理有扎实的理解，也常会遇到一些挑战。这并非失败的标志，而是开发周期中固有的部分。代理工作流涉及多个步骤、工具交互和记忆需求，它们引入了简单LLM应用中不常有的复杂性。及早发现常见问题可以显著简化调试和优化工作。以下是在为AI代理实现提示时可能遇到的一些常见挑战。

指令中的模糊性和不明确性

最常见的障碍之一是编写的提示对您来说很清楚，但代理却能进行多种解读。LLM的“理解”是基于数据中的模式，而非真正的领会。如果指令不够精确，代理可能会选择意想不到的工具，追求无关的目标，或者过早停止。

举例来说，一个指示代理“研究当前AI趋势并总结”的提示可能过于模糊。什么类型的趋势？技术、商业还是道德方面的？总结应该多长？偏好哪些来源？缺乏这种具体性，代理的输出结果会大相径庭，可能无法满足您的实际需求。代理可能会抓住一个次要的趋势，或者生成过于简短或过于详细的总结。这种模糊性常常导致行为不可预测，使得难以获得一致的结果。

过度约束和脆弱性

另一方面，提示可能过于具体，导致代理行为变得脆弱。一个高度受限的提示可能对有限的输入范围或非常具体的场景完美有效，但如果情况稍有偏差，就会失效。

设想一个旨在从发票中提取信息的代理。如果提示指定了查找发票号的精确句子结构（例如，“发票号总是在‘Invoice ID:’之后”），那么当它遇到标签是“Inv. #”、“Document Number:”的发票，或者号码出现在没有明确文本标签的表格中时，它就会失败。这种僵化阻止了代理适应数据或任务条件的自然变化，使系统在可变性为常态的应用中变得脆弱且不可靠。

复杂任务的细节不足

复杂的多步骤任务需要足够的细节，代理才能成功完成。细节不足发生在提示未能提供足够指导，说明如何执行子任务、管理中间状态或处理步骤间的依赖关系时。

如果一个代理的任务是“为新产品规划营销活动”，而提示没有指导其预算考量、目标受众定义、渠道选择或绩效指标（KPIs）等方面，那么由此产生的计划可能会很肤浅或遗漏重要元素。代理可能不知道使用哪些工具进行市场调研，或者如何安排规划活动的顺序。这种细节的缺乏可能导致任务执行不完整或计划不可执行。

上下文 (context)管理失败

AI代理，特别是基于LLM的代理，在一个有限的上下文窗口中运行。随着交互或工作流的进行，旧的信息可能会被推出此窗口，导致代理“遗忘”先前的指令、用户偏好或之前步骤中收集的重要信息。

这在长时间运行的任务或长时间对话中尤其成问题。例如，一个协助复杂配置过程的代理，如果对话变得冗长，可能会忘记用户在交互开始时陈述的偏好。虽然记忆系统（在第5章中讨论）旨在缓解此问题，但提示本身需要精心设计，以有效地总结、刷新或优先处理信息，从而使代理保持正轨。若未能做到这一点，可能导致行为不一致、重复或偏离最初目标。

图示说明了如果提示设计和记忆系统管理不当，信息如何在代理的一系列操作中从其活动上下文窗口中丢失。

工具交互问题

代理通常依赖外部工具（API、数据库、搜索引擎）来执行任务。提示在代理如何选择、使用和解读这些工具的结果方面发挥着重要作用。常见问题包括：

工具选择不正确： 提示可能未能清楚地指导代理从可用工具列表中为给定子任务选择最适合的工具。
工具输入处理不当： 代理可能未能正确格式化工具的输入参数 (parameter)数据，导致API错误或工具行为异常。
工具输出解读错误： 代理可能难以解析或理解工具返回的信息，特别是当输出格式复杂或多变时。
错误处理不佳： 提示可能未能充分指示代理如何应对工具错误（例如，API超时、无效响应），导致工作流停滞。

例如，如果旅行预订代理的提示没有明确指定如何解读航班搜索API中模糊的地点名称，代理可能会查询错误的城市或未能解决歧义，导致预订错误。

规划和推理 (inference)缺陷

代理工作流通常要求LLM创建并执行计划、分解问题，并推理一系列行动。未能充分支持这些认知任务的提示可能导致：

低效或不合逻辑的计划： 代理可能设计出迂回、遗漏必要行动或包含不必要行动的步骤序列。
任务分解失败： 代理可能难以将高层目标分解为可管理的子任务。
陷入僵局： 指导不佳的推理可能导致代理陷入重复循环或死胡同，无法确定下一个逻辑步骤。
无法调整计划： 如果初始计划因新信息或意外障碍而变得不可行，若提示未提供调整策略，代理可能不知道如何有效地重新规划。

考虑一个任务是“组织一次团队活动”的代理。如果提示没有指导其规划过程（例如，考虑预算、收集偏好、检查可用性、预订场地、发送邀请），代理可能会产生杂乱无章的计划，或者在一个方面陷入困境，比如无休止地寻找场地而不确认出席人数。

角色不稳定或偏离

当您为代理分配特定角色或人设时（例如，“您是专门负责软件故障排除的有用客户支持助手”），您会期望其响应和行动与该人设保持一致。然而，在长时间的交互或复杂的工作流中，代理有时会“偏离”其指定人设。

这可能表现为语气的变化、提供超出其预期专业范围的信息，或者未能遵守初始人设提示中定义的行为约束。这种不稳定会令用户感到不适，并损害代理的公信力或效力。这通常发生在提示中定义人设的部分被后续轮次中特定任务指令所掩盖，或者上下文 (context)窗口将初始角色指令推出时。

输出不符要求

许多代理系统要求输出为特定格式，例如用于API集成的JSON、结构化报告或另一个系统的指令列表。如果提示没有精确定义所需的输出结构，包括数据类型、字段名称和嵌套，代理可能会生成语法不正确、不完整或下游流程无法使用的输出。

例如，如果您需要一个代理提取产品详情并以JSON对象形式返回，但您的提示只说“提取产品名称、价格和可用性”，代理可能会返回一个纯文本句子、一个项目符号列表，或者一个字段名称不一致的JSON。这需要额外的解析和错误处理层，降低系统效率。

图解比较展示了提示中具体的输出格式指令如何显著提高代理生成符合要求的结构化输出的速率。

错误级联

在多步骤的代理工作流中，早期提示中一个细微缺陷引起的微小误解或错误，可能会在后续步骤中传播并放大。这种“错误级联”可能导致工作流完全崩溃，即使后续提示设计良好。

设想一个代理的任务是研究一个主题、撰写草稿，然后根据反馈进行修改。如果最初的研究提示导致代理收集到略微偏离主题的信息，这个错误就会影响到草稿。即使修改提示完美无缺，如果基础信息有缺陷，它也可能无法完全纠正方向，导致最终输出不达标。找出此类级联错误的根本原因通常需要仔细追溯代理的行动和推理 (inference)，直至找到有问题的初始提示。

认识到这些常见问题是构建更可靠和高效AI代理的第一步。本章的其余部分将为您提供系统方法，用于测试、调试和迭代优化您的提示，以克服这些挑战并优化您的代理工作流。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao, 2023 arXiv preprint arXiv:2210.03629 DOI: 10.48550/arXiv.2210.03629 - 提出了一种构建LLM代理的框架，阐明了提示如何促进规划、推理和工具交互，这有助于解决许多常见的代理问题。
Generative Agents: Interactive Simulacra of Human Behavior, Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein, 2023 arXiv:2304.03442 DOI: 10.48550/arXiv.2304.03442 - 提出了一种生成式代理架构，包含一个显式记忆系统，用于管理上下文并在长时间交互中保持一致的角色，从而减轻上下文管理失败。
A Survey of Large Language Models for Autonomous Agents, Zhicheng Xi, Hao Peng, Shihao Liang, Shitong Li, Junteng Liu, Yongjie Wang, Xin Yao, Xiangru Tang, Yangyi Chen, Rujie Zhong, Jianxing Liu, Changmeng Zheng, Jianzong Wang, Jing Cai, Guohong Fu, Xiaobo Wang, Jie Zhang, Xipeng Shen, Yonghong Tian, Yang Liu, 2023 arXiv preprint arXiv:2309.17242 - 一项关于基于LLM的自主代理的调查，涵盖了规划、记忆和工具使用，为代理提示实现中的挑战和解决方案提供了更广阔的视角。