将LangChain应用从开发阶段转移到生产环境,会带来显著的运维需求。尽管功能必不可少,但在实际应用中,应用需要具备响应迅速、经济高效以及能应对用户负载的能力。本章侧重于实现这些目标所需的技术。您将学习如何在LangChain应用中识别性能瓶颈,无论这些瓶颈存在于LLM交互、数据获取还是自定义处理步骤中。我们将介绍优化LLM调用的策略,包括缓存、减少$token$消耗和并行化。通过有效的监控和资源分配来管理运维成本,本章也会涉及。此外,我们将考察如何为大型数据集和高查询量扩展检索系统,设计高并发应用,以及使用批处理完成离线任务。学完本章,您将掌握实用知识,能够调整LangChain应用以提升效率和实现扩展。