趋近智
前面讨论过的检索组件需要获取结构良好的信息才能有效运作。原始文档,无论是PDF、文本文件还是网页,都需要进行专门的准备,才能被高效地索引和搜索。本章侧重于将你的知识来源转化为适合检索增强生成(RAG)系统的实际步骤。
你将学习从不同来源摄取文档的方法,以及将大型文档拆分成更小、更易处理的片段(这一过程被称为分块)的原理。我们将介绍各种分块策略,从简单的固定大小拆分到更注重内容的技术。此外,你将了解如何将有意义的元数据与这些分块关联起来,以及将最终处理好的数据及其向量嵌入存储到向量数据库中,使其可供检索组件使用。实践练习将指导你使用常用库实现文档加载和分块。
3.1 从不同来源加载文档
3.2 文档分块的必要性
3.3 固定大小分块策略
3.4 内容感知的分块方法
3.5 数据块的元数据关联
3.6 将处理后的数据存储到向量数据库中
3.7 动手实践:文档分块
© 2026 ApX Machine Learning用心打造