趋近智
迄今为止,我们使用的大语言模型都依赖于其内部预训练知识运行。这种方式有一个明显的局限:模型无法得知其训练截止日期之后生成的数据,也无法获取私有或专业信息。本章将介绍一种方法,通过将大语言模型连接到外部数据源来解决这个问题。
这种方法称为检索增强生成 (RAG)。其基本思路是首先从外部知识库中获取相关文档,然后将这些文档作为生成回复的上下文提供给大语言模型。这使得模型输出的内容基于事实、时效性和具体信息。
在本章中,我们将逐步构建一个RAG系统。您将学习如何:
DocumentLoaders从PDF和文本文件等多种文件格式中获取数据。TextSplitters将大型文档分割成更小、易于管理的部分。VectorStore对这些嵌入向量进行索引,以便进行高效的相似性搜索,其中相关性由查询向量 vq 与文档向量 vd 之间的距离来确定。5.1 RAG系统架构
5.2 使用文档加载器加载数据
5.3 文档分块处理
5.4 向量存储和嵌入
5.5 使用检索器获取数据
5.6 构建问答链
5.7 动手实践:基于您文档的问答
© 2026 ApX Machine Learning用心打造