章节 3: 准备检索所需数据

前面讨论过的检索组件需要获取结构良好的信息才能有效运作。原始文档，无论是PDF、文本文件还是网页，都需要进行专门的准备，才能被高效地索引和搜索。本章侧重于将你的知识来源转化为适合检索增强生成（RAG）系统的实际步骤。

你将学习从不同来源摄取文档的方法，以及将大型文档拆分成更小、更易处理的片段（这一过程被称为分块）的原理。我们将介绍各种分块策略，从简单的固定大小拆分到更注重内容的技术。此外，你将了解如何将有意义的元数据与这些分块关联起来，以及将最终处理好的数据及其向量 (vector)嵌入 (embedding)存储到向量数据库中，使其可供检索组件使用。实践练习将指导你使用常用库实现文档加载和分块。

课程章节

3.1 从不同来源加载文档
3.2 文档分块的必要性
3.3 固定大小分块策略
3.4 内容感知的分块方法
3.5 数据块的元数据关联
3.6 将处理后的数据存储到向量数据库中
3.7 动手实践：文档分块