检索增强生成系统,尤其是在大规模应用中,依赖于有效管理的数据。系统可用的信息,其准确性和及时性是系统输出的根本。本章介绍如何构建和运行数据管道,以满足大规模分布式RAG部署对数据量和速度的要求。您将学习如何:构建使用Spark或Kafka等分布式框架的高吞吐量数据摄入系统。采用有效的文档分块和预处理策略,以适应大规模数据集。处理嵌入生成及其在分布式环境中的管理。运用变更数据捕获(CDC)技术,确保您的RAG系统能以最小延迟反映数据更新。管理和优化向量数据库,以支持广泛的RAG操作。建立数据治理实践,并维护这些多方面系统中的数据血缘。本章包含一个动手实践部分,您将在本部分构建一个可伸缩的数据摄入管道,以巩固所讨论的原理。