趋近智
如章节开头所述,检索器是否好用,取决于它能否理解用户查询和知识库中文档的含义。然而,计算机不像人类那样天生理解语言,它们处理的是数字。这种基本差异使得我们需要一种方法,将文本转换为能捕捉其语义核心的数字形式。这时,向量嵌入就派上用场了。
向量嵌入是文本(可以是词、句子,甚至整个文档)在多维数学空间中的紧密数字表示。可以想象,每段文本都被映射到这个空间中的一个特定点或向量。一个向量本质上是一串数字,例如 [0.05, -0.21, 0.98, ..., 1.52]。“多维”表示这些向量可以有许多分量,通常是几百甚至几千个(例如,768或1024维很常见)。
这些嵌入的一个显著特性是,它们旨在捕捉语义关系。具有相似含义的文本片段,其向量在这个高维空间中预期会彼此“接近”。反之,含义不相似的文本,其向量会距离更远。例如,“机器学习”的嵌入可能比“股票市场”的嵌入更接近“人工智能”的嵌入。
考虑一个简化的二维空间:
一个二维可视化图,其中“狗”和“小狗”或“猫”和“小猫”等相关词语的位置比“苹果”等不相关词语更接近。实际的嵌入存在于高得多的维度中。
文本之间的相似性并非基于简单的关键词重叠,而是基于在训练专门的嵌入模型时,通过分析大量文本数据所学到的语境理解。这些模型,通常基于像Transformer这样的神经网络架构,学习词语在语境中的用法,并将这种理解编码成数字向量。随后将介绍具体的模型类型。
这种表示为何对RAG如此重要?当用户提交查询时,RAG系统首先将该查询转换为其向量嵌入。然后,检索器组件使用这个查询向量来搜索向量数据库(其中存储了所有文档片段的预计算嵌入)。目的是在向量空间中找到与查询嵌入最接近的文档片段嵌入。这种接近度通常使用数学相似性度量来衡量,例如余弦相似度,我们很快会讨论。
通过使用嵌入,检索过程超越了简单的关键词匹配。它能识别与查询相关的文档,即使这些文档没有使用完全相同的词语。这种理解语义的能力,对于为生成器大型语言模型获取真正有用的上下文非常重要,从而得到更准确和相关的最终答案。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造