趋近智
虽然向量搜索擅长捕获语义相似性,但它在运行时通常不明确知道数据点之间的关系或特定知识体系的潜在结构。纯粹的语义匹配可能会遗漏重要关联,或未能有效使用数据中固有的结构化信息或其上下文信息。图结构在此处提供了一种有力的补充方法。通过将实体及其关系表示为节点和边,图提供了一个框架,可以将结构信息、关系上下文和领域知识融入搜索过程。
知识图谱(KG)是可用于增强向量搜索的结构化信息的一个主要例子。知识图谱将实体(例如人物、产品、理念)表示为节点,将关系(例如“由…创作”、“是…的一部分”、“与…相关”)表示为有类型的边。
考虑一个用于科学文献的检索增强生成(RAG)系统。向量搜索可能会找到与关于“神经网络剪枝技术”的查询语义相似的论文。然而,一个包含引文信息、作者合作和研究主题的知识图谱可以显著提升相关性:
集成知识图谱通常涉及根据初始向量搜索候选查询图数据库,或在初始向量检索后的重新排序阶段使用图属性。
在显式知识图谱之外,数据集固有的结构通常可以建模为图。用户-项目交互、文档引用网络,甚至超链接结构都形成了以节点表示项目,边表示关系或交互的图。图嵌入技术旨在学习节点(有时也包括边)的向量表示,以捕获这种图拓扑。像Node2Vec、DeepWalk或图神经网络(GNN)如GraphSAGE等算法生成的嵌入中,图结构中接近的节点在嵌入空间中也接近。这些图嵌入捕获的是结构相似性,这可能与文本或图像嵌入捕获的语义相似性有显著差异。
例如,两篇研究论文可能根据其摘要(不同子领域)在语义上相距较远,但在引用图谱中结构上接近(一篇频繁引用另一篇,或它们有许多共同引用)。推荐系统可能会根据描述发现两种产品在语义上不相似,但根据共同购买模式(用户交互图)在结构上相似。
结合语义向量搜索和基于图的信息的优势需要特定的集成策略:
基于图的重新排序: 这通常是最直接的方法。
使用图邻居的查询扩展:
语义嵌入和图嵌入的融合:
搜索中的图遍历: 更高级的技术涉及将图遍历直接集成到近似最近邻(ANN)搜索过程中。例如,在基于图的ANN算法(如HNSW)中,搜索过程中的邻域搜索可能会根据外部图中的关系而产生偏向或受限,尽管这会大幅增加实现难度。
以下是典型的基于图的重新排序流程的可视化:
该流程将向量搜索结果与图派生特征结合进行重新排序。
集成图结构引入了额外的复杂性:
尽管存在复杂性,但使用图信息增强向量搜索提供了一种精巧的方法来融入关系上下文和结构化知识,这通常能为复杂应用带来搜索相关性的显著改进,特别是那些得益于理解数据中关系、层次结构或交互模式的应用。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造