在优化了RAG系统内部的特定部分,例如检索器和生成器后,我们现在将重心转向整个流程的整体性能。优化单个组件很重要,但真正的生产环境可用性要求对系统效率采取全局性的方法,思考每个部分如何共同影响延迟和吞吐量。在本章中,您将学习分析和提高完整RAG系统性能的实用方法。我们将介绍减少端到端延迟、提高吞吐量以应对并发用户请求,以及在不同阶段实现智能缓存的策略。此外,我们将讨论优化向量数据库的交互方式,运用异步处理和请求批处理,以及有效使用GPU等硬件加速器来加速高负荷计算。旨在让您掌握构建RAG系统所需的知识,使其不仅准确,而且快速、响应迅速,并能根据生产需求进行扩展。