将应用从开发环境部署到生产环境,需要着重关注其可靠性、性能衡量和持续的运行状态检查。构建复杂的LangChain链和代理是流程的一部分;而确保它们能持续输出正确结果、在性能预算内运行,并在出现问题时能够诊断,则是同样重要的一个方面,尤其考虑到大型语言模型(LLM)输出的不确定性。本章介绍LangChain应用在实际运行阶段所需的方法和工具。你将学习如何采用有条理的方法进行评估、观察和分析。本章内容包括:使用LangSmith作为核心平台,用于在生产环境中追踪执行、调试问题并监控其行为表现。针对应用目标,制定有意义的评估指标。建立自动化评估流程,以便对照预设数据集系统地测试应用输出。运用详细的追踪记录,弄清并解决链和代理内部的故障或异常行为。监控主要运行指标,例如延迟、错误率、令牌使用量以及相关的财务成本。将应用监控数据与常用的第三方可观测系统进行整合。建立机制,收集关于应用响应的人工反馈以指导改进。这些方法能为已部署的LangChain应用提供支撑,确保其可靠且高效地运行。