趋近智
您的LLM应用程序部署并可访问后,工作并未结束。为确保其稳定运行、表现良好并控制预算,需要持续观察。监控已部署的应用程序,特别是涉及LLM的应用程序,面临独特的挑战,因为它们固有的非确定性、可能的高运营成本以及“高质量”输出的主观性。有效的监控提供所需的可见性,以维护应用程序的健康状态、优化性能和管理开支。
为全面了解已部署的应用程序,请关注跟踪以下几类指标:
性能指标: 这些指标直接影响用户体验。
资源利用率: 监控支持应用程序的基础设施。
成本监控: LLM API及其运行的基础设施可能产生显著成本。
应用程序特定和质量指标: 这些是根据您的LLM应用程序的功能和行为定制的。
通常需要结合多种工具和技术才能进行有效监控:
结构化日志: 在整个应用程序中实现全面的日志记录。记录重要事件:传入请求、传出LLM API调用(包括提示,减去敏感数据)、接收到的响应、检索到的上下文(针对RAG)、代理做出的决策、遇到的错误以及时间信息。使用JSON等结构化格式,以便下游系统更轻松地解析和分析。Python内置的logging模块可以为此进行配置。
应用性能监控(APM): APM工具能够提供对应用程序性能的详细可见性。它们会自动对您的代码进行插桩(对于FastAPI或Flask等常用框架通常只需最少配置),以追踪请求流经不同组件的情况、测量数据库查询时间、跟踪外部API调用并收集系统指标。例子包括Datadog、New Relic、Dynatrace,以及供应商中立的OpenTelemetry标准,该标准提供用于生成遥测数据(追踪、指标、日志)的库和规范。
LLM可观测性平台: 这是一类不断增长的工具,专门为监控LLM应用程序而设计。LangSmith(来自LangChain)、Weights & Biases (W&B Prompts)、TruLens或Arize AI等平台提供针对LLM工作流的功能:
云提供商监控工具: 运用您的云提供商提供的监控服务(例如AWS CloudWatch、Google Cloud Monitoring、Azure Monitor)。这些工具对于跟踪基础设施层面的指标(CPU、内存、网络)、收集日志、设置基本仪表板以及根据支出阈值配置成本警报非常有用。
仅仅收集数据是不够的;您需要使其可操作。
仪表板: 在仪表板上可视化最重要的指标。这使您能够快速评估应用程序的健康状况并发现趋势或异常。一个好的仪表板可能会显示:
API请求在一周内的P95延迟,显示周中可能存在性能问题。
告警: 配置告警以便在突破重要阈值时主动通知您。例子包括:
反馈回路: 监控数据对于迭代改进价值巨大。使用监控获得的洞察来:
监控不是一次性设置,而是一个持续过程。随着您的应用程序演进、模型更新或使用模式改变,您的监控策略必须进行调整。持续观察是生产环境中运行可靠、高效和高质量LLM应用程序的根本。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造