趋近智
语言模型回答特定文档相关问题的能力,很大程度上取决于信息如何被处理和呈现。本章介绍检索增强生成(RAG)数据管道的初始阶段,主要说明如何将原始材料转换为适合处理的结构化形式。
你将了解如何:
document 模块,从不同来源加载数据,包括 PDF 文件和网页。preprocessing 模块清洗和标准化文本,从而提升后续步骤的数据质量。完成这些部分后,你将拥有一个清洗过的、已分块的数据集,可用于下一章将要介绍的嵌入处理。
4.1 数据加载基本原理
4.2 从不同来源加载文档
4.3 文本分块的原理
4.4 应用分块策略
4.5 文本预处理以提升检索效果
© 2026 ApX Machine Learning用心打造