将 LangChain 应用从开发阶段部署到生产环境,会产生明显的运行要求。尽管功能很重要,但在实际使用中,应用需具备响应迅速、成本高效并能处理大量用户请求的能力。本章将侧重于达成这些目标所需的方法。你将学习如何识别 LangChain 应用中的性能瓶颈,无论这些瓶颈出现在LLM交互、数据获取还是自定义处理步骤中。我们将介绍优化LLM调用的策略,包括缓存、减少$token$消耗和并行化。通过有效的监控和资源分配来管理运行成本,也会在本章中提及。此外,我们还将探讨如何为大型数据集和高查询量扩展检索系统,如何设计高并发应用,以及如何使用批处理完成离线任务。到本章结束时,你将掌握调整 LangChain 应用以提高效率和可伸缩性的实用知识。