代理型RAG系统与分布式工具应用

传统的检索增强生成（RAG）系统主要依赖文本检索和综合，在处理复杂用户查询时往往力有未逮。这些查询通常需要与外部系统交互、执行代码或访问不适合标准密集检索的结构化数据源。代理型RAG系统通过赋予RAG流程使用工具的能力来解决此问题，将大型语言模型（LLM）从生成器转变为可以规划和执行一系列操作的推理 (inference)引擎。此外，当这些工具本身是分布式服务时，系统能获得显著的能力提升和扩展性。

代理型RAG的要旨

其核心是，代理型RAG系统使用LLM作为中心控制器或“代理”。这个代理可以对任务进行思考，将其分解为多个步骤，并决定使用外部“工具”来收集信息或执行操作，以帮助满足用户的请求。这与基本RAG不同，基本RAG中LLM的作用主要是综合检索器提供的信息。

代理型RAG系统的典型流程通常遵循ReAct（思考+行动）等模式：

思考 (Thought)： LLM分析查询及其当前知识状态（包括已检索文档和先前行动）。它形成关于下一步需要做什么的思维过程。
行动 (Action)： 基于其思考，LLM决定采取行动。此行动可以是：
- 调用带有特定参数 (parameter)的工具。
- 执行另一次检索查询。
- 提出一个子问题。
- 决定已拥有足够信息来生成最终答复。
观察 (Observation)： 如果调用了工具，系统会执行工具调用并接收输出（观察结果）。此输出随后反馈给LLM。
重复： LLM将新的观察结果纳入其语境，并返回到思考步骤，重复此过程直到能够生成最终答复。

这种迭代过程使代理能够进行多步骤思考、从错误中恢复，并根据中间结果动态调整其策略。

分布式工具：大规模提升能力

在大型分布式RAG环境中，“工具”不仅仅是简单的函数；它们通常是独立的、专用的分布式服务。实例包含：

专有数据API： 通过安全的分布式API访问内部数据库、客户关系管理（CRM）系统或库存系统。
代码执行沙箱： 类似Jupyter内核或FaaS（函数即服务）平台的服务，可在受控环境中执行代码（例如，用于复杂计算、数据分析的Python）。
专用搜索引擎： 访问垂直搜索引擎（例如，专利搜索、生物医学文献搜索）或知识图谱查询端点。
其他LLM或机器学习 (machine learning)模型： 为法律文本摘要而微调 (fine-tuning)的专用LLM，或用于情感分析、图像描述或翻译的不同模型。
实时数据馈送： 提供股票价格、天气更新或新闻内容的服务。

使用分布式工具带来多方面优势：

可扩展性和专业性： 每个工具都可以根据其具体负载和资源需求独立扩展。专业团队可以维护和优化这些工具。
模块化： RAG系统变得更模块化，允许更轻松地更新或替换单个工具而不影响整个系统。
弹性： 一个工具的故障不一定导致整个代理能力的停用，尤其在有备用机制或替代工具的情况下。
数据本地性： 工具可以与其数据源共同部署，减少延迟并遵守数据治理规定。

代理型RAG与分布式工具的架构蓝图

实施使用分布式工具的RAG系统需要仔细考虑架构。组成部分包含：

代理核心（LLM）： LLM（例如GPT-4、Claude 3、Llama 3）作为核心。它需要被有效提示或微调 (fine-tuning)，以理解如何请求工具使用、解释工具输出和规划行动序列。
提示工程 (prompt engineering)与管理： 提示变得复杂许多。它们必须清楚描述可用工具、其功能、输入/输出格式以及何时应使用。这通常涉及在提示中向LLM提供“工具清单”或类似API的描述。
输出解析器： LLM的输出，包含“思考”和“行动”（例如，带有参数 (parameter)的特定工具调用，或最终答复），需要可靠地解析。此组件提取预期的行动及其参数。
工具注册与发现： 一种机制，使代理或其协调器了解哪些工具可用、其能力及其网络端点。这可以是从静态配置到微服务环境中的动态服务发现系统（例如Consul、etcd）不等。
工具调用网关： 负责以下内容的组件：
- 将LLM的行动请求转换为对分布式工具的实际调用（例如，对REST API的HTTP请求，gRPC调用）。
- 处理工具访问的身份验证和授权。
- 管理网络通信、超时和重试。
- 格式化工具的响应（“观察结果”）以反馈给LLM。
分布式工具基础设施： 实际工具，以微服务、无服务器功能或其他可扩展服务部署。每个工具都提供明确定义的接口。

代理型RAG系统与分布式工具生态系统的高层架构。代理LLM通过网关协调对各种工具的调用，迭代调整其理解和规划。

实施工具使用：策略与考虑

工具定义与呈现

为了使LLM有效使用工具，它必须理解工具的功能、预期输入和产生输出。常见做法包含：

自然语言描述： 提供工具目的和参数 (parameter)的简明概要。
结构化格式： 使用JSON Schema、OpenAPI规范或Python函数签名来描述工具。这些对于LLM解析和系统验证通常更有效。
少量示例： 在LLM的提示中包含工具使用示例（输入查询 -> 思考 -> 工具调用 -> 观察结果 -> 最终答复）。

这些描述通常由PromptFormatter根据查询或代理的当前计划动态插入到提示中。

工具选择与规划

当有多个工具可用时，代理需要选择最适合的一个或多个。

LLM驱动选择： LLM本身根据描述和当前语境决定使用哪个工具。这在LangChain或LlamaIndex等框架中常见。
路由器式选择： 独立的分类模型或基于规则的系统可以预先选择相关工具的子集，甚至单个工具，以简化LLM的决策过程。这对于数量众多的工具会很有用。
规划： 对于复杂任务，LLM可能生成涉及顺序或并行工具调用的多步骤计划。每个步骤的输出会影响后续步骤。高级代理甚至可以根据新的观察结果修改其计划。

分布式工具使用中的安全与治理

允许LLM调用任意外部工具会带来重要的安全考虑：

身份验证与授权： 工具调用网关必须安全地向每个分布式工具进行身份验证，并确保工具调用是基于用户权限或系统策略获得授权的。OAuth 2.0、API密钥和mTLS是常见机制。
输入清理与验证： 工具的输入（可能受LLM生成影响）必须严格验证，以防止注入攻击或滥用。
输出过滤： 工具的输出在LLM处理或呈现给用户之前，应扫描是否存在敏感信息或恶意内容。
速率限制与配额： 实施控制以防止滥用或失控的代理行为导致分布式工具过载或产生过高成本。
审计追踪： 维护所有工具调用的详细日志，包括输入、输出和代理的思考过程，以便进行调试、安全审计和合规性审查。

扩展代理型RAG与分布式工具的挑战

这些系统虽然能力强，但也带来复杂性：

延迟增加： 每次工具调用都会增加网络延迟。顺序工具调用会显著增加端到端响应时间。并行工具执行（如果计划允许）和积极缓存等策略很重要。
错误传播与处理： 故障可能发生在LLM、工具调用机制或任何分布式工具中。错误处理、重试逻辑（带退避）和备用策略不可或缺。代理需要能够“观察”并思考工具故障。
状态管理： 对于多轮交互或长时间运行的代理任务，在可能无状态的组件之间管理代理的状态（对话历史、中间结果、进行中的计划）成为一项挑战。可能需要分布式缓存或数据库。
成本管理： 每次LLM调用和工具调用都会产生费用。涉及多步骤的复杂代理行为可能会变得昂贵。优化提示、为简单子任务使用更小/更便宜的LLM以及实施成本控制是必需的。
可观察性与调试： 追踪请求通过LLM、多次工具调用再返回的路径可能很困难。分布式追踪、全面日志记录和专用监控仪表板对于理解系统行为和诊断问题必不可少。

示例：金融分析代理

考虑一个查询：“比较A公司和B公司2023年第四季度的营收增长，并总结两家公司近期分析师的看法。”

代理型RAG系统可能按如下步骤进行：

思考： 我需要财务数据（营收）和分析师看法。我有访问金融数据库和新闻/看法API的工具。
行动1： 调用 financial_data_api(company="A公司", metric="2023年第四季度营收增长")。
观察结果1： {"company_a_growth": "5.2%"}。
行动2： 调用 financial_data_api(company="B公司", metric="2023年第四季度营收增长")。
观察结果2： {"company_b_growth": "3.8%"}。
行动3： 调用 news_sentiment_api(company="A公司", time_period="最近30天")。
观察结果3： {"company_a_sentiment_summary": "分析师持谨慎乐观态度..."}。
行动4： 调用 news_sentiment_api(company="B公司", time_period="最近30天")。
观察结果4： {"company_b_sentiment_summary": "最近的产品发布被视为正面..."}。
思考： 我已获得所有必要信息。
行动（最终答复）： “A公司2023年第四季度营收增长5.2%，而B公司增长3.8%。A公司近期分析师看法持谨慎乐观态度……B公司方面，其最近的产品发布被视为正面……”

每次API调用（financial_data_api、news_sentiment_api）都将通过工具调用网关路由到相应的分布式微服务。

结合分布式工具使用的代理型RAG系统，标志着朝着更具能力和自主性的AI系统迈出了重要一步。通过使LLM能够与各类外部服务交互，我们能够构建RAG方案，以应对比以往复杂和动态得多的信息需求，特别是在拥有多元数据源和专用功能的企业环境中。然而，这种能力也伴随着更高的架构复杂性和运营负担，需要仔细的设计和良好的MLOps实践。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

ReAct: Synergizing Reasoning and Acting in Language Models, Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao, 2023 Proceedings of the Eleventh International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2210.03629 - 介绍了“思考+行动”(ReAct)模式，这是一种使大型语言模型交错进行推理和工具使用的方法，与本节描述的核心机制直接相关。
Toolformer: Language Models That Can Use Tools, Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom, 2023 arXiv preprint arXiv:2302.04761 DOI: 10.48550/arXiv.2302.04761 - 提出了一种通过自监督学习训练大型语言模型使用外部工具的方法，为大型语言模型动态调用工具的智能体系统奠定了基础。
Retrieval-Augmented Generation for Large Language Models: A Survey, Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, 2024 arXiv preprint arXiv:2312.10997 DOI: 10.48550/arXiv.2312.10997 - 全面概述了检索增强生成（RAG）技术，包括高级架构以及外部知识和工具的集成，将智能体RAG置于更广泛的RAG领域中。
Designing Data-Intensive Applications, Martin Kleppmann, 2017 (O'Reilly Media) - 一本关于构建可伸缩、可靠和可维护分布式系统的受人尊敬的书，涵盖了与分布式工具基础设施和所提及挑战相关的课题。