趋近智
为了有效调试和优化您的智能体提示,您需要超越最终输出,仔细检查智能体达到该输出的过程。这意味着要检查构成智能体操作记录的行动、思考和观察序列。分析这些行动序列,就像审查试飞后的飞行记录器一样;它能提供宝贵的线索,帮助您了解智能体的决策过程,显示您的提示哪些地方起了作用,更重要的是,哪些地方可能导致智能体出现偏差。
智能体的工作流程很少是单一步骤。相反,它是一系列内部“思考”(通常是LLM推理)、所选“行动”(例如使用工具或形成回复)和“观察”(这些行动的结果)。这个“思考→行动→观察”的链条,重复出现,构成了智能体的行动序列。
例如,一个负责查找信息的智能体可能拥有如下序列:
call_web_search("Topic Y")。read_and_summarize_url(link1)、read_and_summarize_url(link2)、read_and_summarize_url(link3)。present_answer(compiled_summary)。每一步都可能是成功或失败的环节,直接或间接由您的提示引导。如果智能体卡住、产生无关输出或遗漏重要信息,行动序列就包含着原因的线索。
分析这些序列不仅仅是阅读日志;它还需要运用系统的方法来提取信息并找出提示可以改进的地方。
任何良好分析的根本是详细的日志记录。您的智能体框架应该捕获以下内容:
结构化日志记录: 目标是结构化日志(例如,JSONL格式,每行均是一个代表事件的JSON对象)。这使得解析、过滤和程序化分析变得更加容易。
一个日志条目可能看起来像:
{
"timestamp": "2023-10-27T10:30:05Z",
"step": 3,
"type": "thought",
"agent_id": "research_agent_v2",
"session_id": "xyz123",
"prompt_used_hash": "abc_persona_prompt_xyz_task_prompt",
"llm_input": "用户查询:‘什么是ReAct?’上下文:之前的搜索结果...",
"llm_output": "ReAct框架结合了推理和行动。我应该使用‘explain_concept’工具,输入为‘ReAct’。",
"cost": 0.0015,
"tokens_used": 150
}
追踪可视化: 对于复杂的序列,将追踪过程可视化会非常有帮助。一些智能体开发框架提供内置的追踪视图。您也可以生成简单的图表来显示思考、行动和观察的流程。
一张说明智能体行动序列的图表。分析这样的序列可以显示提示调整可能改进智能体行为的地方,例如添加处理宽泛搜索结果的说明。
有时,了解智能体行为的最好方法是手动“逐步执行”其过程。如果您的日志记录足够详细,您可以重构智能体在每个时间点的状态:
这种详细检查特别有助于找出您的提示中细小的误解或不同提示组件之间意料之外的影响。例如,您可能会发现智能体正确识别了一个子任务,但随后使用了错误的工具,因为描述工具能力的提示不够明确。
通常,您会拥有不同版本的提示,甚至不同的智能体配置。在相同任务上比较它们的行动序列,可以显示哪些更改是有益的:
例如,如果提示A导致智能体循环三次后才成功,而提示B(带有更明确的指令)直接导致成功,那么行动序列分析就会使这种改进显而易见。
随着您分析更多序列,您将开始识别模式:
例如,如果您注意到智能体在执行高风险行动前经常请求确认,并且这能带来更好的结果,您或许可以在其核心提示中明确添加一条“删除文件前始终确认”的指令。
虽然手动分析通常是必要的,但您也可以尝试自动化方法,特别是对于大量日志而言:
分析行动序列的最终目的是收集可操作的反馈,以改进您的提示。以下是这种联系通常如何运作的:
通过系统地逐步剖析智能体如何根据您的提示行动,您将把调试从猜测转变为数据驱动的过程。这种详细程度的分析对于构建可靠且有效的智能体系统非常重要。随着您的迭代,您会发现通过提示工程预测和引导智能体行为的能力得到很大提升。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造