评估推理与规划能力

评估智能体的最终输出是必要但不足够的。对于涉及多步骤、工具交互以及根据新信息调整的复杂任务，衡量内部推理 (inference)和规划过程本身的优劣变得必要。通过有缺陷或脆弱的推理得出的正确最终答案，不如从可靠、可推广的过程中得出的略低于最优的答案理想。本节阐述了评估这些内部认知能力的方法。

推理 (inference)轨迹的定性分析

评估推理最直接的方式是通过对智能体执行轨迹的定性检查。像ReAct（推理+行动）这样的框架明确生成这些轨迹，将思维步骤与行动和观察交织在一起。

轨迹检查： 人工审查序列：思考 -> 行动 -> 观察 -> 思考... 寻找：
- 逻辑连贯性： 思想是否逻辑地承接前一步骤和观察？
- 目标一致性： 推理是否始终指向解决主任务或当前子任务？
- 假设生成（如适用）： 在像思维树（ToT）这样的架构中，是否系统地生成并审视了合理的假设？
- 错误识别与修正： 智能体是否识别出行动失败或观察结果与其假设相悖的情况？它如何调整其推理或规划？
- 效率： 推理过程是否有不必要的绕道或循环？
人工评估小组： 对于细节任务，可聘请领域专家评估推理的优劣。向他们提供任务、智能体的轨迹和具体标准（例如：可靠性、效率、安全性）。尽管有参考价值，但此方法资源密集且本身带有主观性。规范评估标准和使用多名评估员可以减轻主观性。

推理 (inference)和规划的定量衡量标准

定性分析提供深入视角，而定量衡量标准具备可扩展性和可比性。

中间状态准确度： 对于可分解为不同子目标的任务或需要特定中间信息获取的任务，衡量这些检查点处的准确度。例如，在一个多跳问答任务中，智能体是否在综合最终答案之前正确识别出必要的中间事实？
规划优劣衡量标准： 在执行之前或期间评估生成的规划（一系列预期行动）：
- 规划长度 / 步骤数： 更少的步骤通常意味着更高的效率，尽管并非普遍如此（例如，更长的规划可能更有效）。如果有已知的最优或基准规划，可进行比较。
- 规划可行性： 评估在智能体工具和对环境的感知状态下，计划的行动是否可执行。这可能涉及检查工具使用的先决条件。
- 目标贴合度得分： 根据每个步骤如何清晰地有助于达成既定目标，分配一个分数（可能使用另一个LLM或基于规则的系统）。对不相关或适得其反的步骤进行扣分。
- 灵活性/适应性得分： 衡量初始规划预见潜在问题的程度，或智能体在执行中面对意外观察时，如何有效地修改规划。这可通过反事实情景进行测试（见下文）。
推理忠实度： 这衡量智能体明确的推理与其行动的契合程度。对于先行于行动 $A_i$ 的思考 $T_i$ ， $A_i$ 是否逻辑地承接 $T_i$ ？方法包括使用另一个LLM对 $T_i \rightarrow A_i$ 的转换进行评分，或比较推理步骤和行动描述之间的语义相似度。
反事实评估： 对初始问题设定引入小的、受控的改变，或在执行期间注入意外（但合理）的观察结果。评估智能体的推理和规划如何调整。它是否识别出变化？它是否适当地调整规划，还是发生灾难性失败？这能检查推理过程的可靠性。

自动化评估方法

人工轨迹分析不具扩展性。自动化方法对于迭代开发来说非常重要。

基于模型的评估： 运用一个独立的、强大的LLM（“评估LLM”）来评估智能体推理 (inference)轨迹或规划的优劣。
- 提示词 (prompt)设计： 设计结构化提示词，为评估LLM提供任务、智能体的推理/规划轨迹，以及具体的评估标准（例如：逻辑一致性、目标进展、效率）。
- 评估LLM的示例标准：
  1. 一致性： 推理是否没有矛盾？ (得分 1-5)
  2. 相关性： 每个思维步骤是否直接解决问题？ (得分 1-5)
  3. 进展： 推理是否明显地朝着解决方案推进？ (得分 1-5)
  4. 完整性： 规划是否涵盖了任务所有必要方面？ (得分 1-5)
- 注意事项： 评估LLM可能与被评估的智能体有相似的偏见或失效模式。其判断仍是对真实推理优劣的近似。
模拟环境： 对于旨在与特定环境交互的智能体（例如：网页浏览、代码执行、游戏），创建模拟器。这些可以实现：
- 受控执行： 在可重现的环境中运行智能体的规划。
- 状态验证： 检查智能体是否达到预期的中间状态。
- 指标计算： 自动计算模拟环境中任务完成率、所用步骤数和资源使用情况等指标。

推理 (inference)和规划的基准测试

标准化基准有助于比较不同的架构和方法。尽管端到端智能体基准（如AgentBench）有用，但侧重于其中特别考验推理和规划的任务：

多跳问答： 像HotPotQA这样的任务需要串联多条信息，间接检验推理能力。
数学推理： 像GSM8K这样的基准检验结构化、逐步的推理。
规划问题： 简化的规划场景（例如：积木域、适应LLM交互的物流谜题）可以单独衡量规划能力。根据规划的有效性、最优性（最短规划）和成功率进行评估。

推理 (inference)路径的可视化

对于复杂的推理过程，特别是涉及分支或审视的（如ToT），可视化有助于理解和调试。图结构可以表示思维、决策和回溯的流程。

ReAct风格的信息获取推理轨迹的简化可视化。框代表思考，椭圆代表行动，便签代表观察。

评估中的挑战

评估推理 (inference)和规划仍然存在挑战：

缺少黄金标准： 对于复杂任务，通常没有唯一的“正确”推理或规划方式。
相互依赖： 推理、规划、记忆访问和工具使用紧密相关。单独衡量某个组件的性能很困难。
可扩展性： 详细的人工分析缓慢且昂贵。自动化方法仍在发展中且存在局限。

有效评估这些内部过程需要结合定性检查、有针对性的定量衡量标准、自动化工具和标准化基准。这种迭代评估过程对于构建更具能力和更可靠的智能体系统非常重要。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao, 2022 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2210.03629 - 本文介绍了ReAct框架，该框架生成与行动和观察交织的明确推理轨迹（思维），使代理的内部过程可供检查和评估。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan, 2023 Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2305.10601 - 这项工作详细介绍了一个推理框架，该框架探索多条推理路径并自我评估中间步骤，与评估结构化规划和假设生成能力直接相关。
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica, 2023 NeurIPS 2023 Datasets and Benchmarks Track DOI: 10.48550/arXiv.2306.05685 - 本文研究了使用大型语言模型作为评估器的有效性，这是提及的一种核心自动化评估技术，并提供了一个用于稳健评估的框架。