趋近智
向量搜索依靠密集向量表示,善于捕获语义关系,即使关键词不完全匹配也能找到相似项。这种能力是现代搜索和检索增强生成(RAG)系统的核心。然而,仅在向量空间中依赖最近邻搜索有其固有的局限性,尤其在要求精确性、特指性或处理超出嵌入模型熟知词汇的术语时。了解这些局限对构建真正高效的搜索系统很重要,并促使混合方法的开发。
向量嵌入旨在将语义相似的理念映射到向量空间中相近的位置。尽管功能强大,但此过程固然会弱化词汇差异。对 configure_logging(level="DEBUG") 的查询,可能在语义上接近关于通用日志设置,甚至不同日志级别如 INFO 或 WARNING 的代码片段。然而,用户可能特别需要精确的函数调用签名,或解释 DEBUG 级别的文档。
纯向量搜索在处理精确文本形式很重要的查询时存在不足:
SKU-A4B1-XYZ)、错误代码(ERR_CONN_TIMEOUT)、特定函数名(calculate_iou_score)、独特的专有名词或保留关键词,通常需要精确匹配。向量搜索可能找到语义上相关的项,但漏掉包含精确标识符的那个。HNSW(分层可导航小世界)理想情况下应优先显示明确定义或讨论HNSW的文档,而不仅仅是关于近似最近邻(ANN)的通用文章。在这些情况下,使向量搜索功能强大的语义“模糊性”变为一个劣势。系统优先考虑相似性而非词汇精确性,未能检索到以精确术语匹配为主要相关性信号的文档。
嵌入模型在大量数据集上训练,但它们不可避免地遇到训练期间未见的术语(词汇外或OOV术语),或出现频率过低以至于无法形成高质量向量表示的术语。这通常被称为术语的“冷启动”问题。
这种局限在快速发展的领域(例如,技术、研究、时事)中尤为明显,这些领域新术语不断涌现。纯向量搜索系统可能无法显示包含这些新术语的最相关、最新的文档,直到嵌入模型被重新训练或微调。
有时,语义相似性过于宽泛。用户查询可能旨在更广泛主题中的特定方面或关系。向量搜索优化整体语义接近度,可能会返回与通用主题相关的文档,但错过所要求的特定视角。
设想一个查询,例如“GDPR对用户同意书的影响”。纯向量搜索可能返回关于以下内容的文档:
尽管相关,这些可能无法直接针对GDPR和同意书之间特定的影响关系。最接近的向量可能代表主要主题(GDPR、同意),而非查询结构和措辞所暗示的特定交集。
在海量网络语料库(如维基百科、Common Crawl)上训练的通用嵌入模型提供广泛的语义理解。然而,它们可能缺乏高度专业化行业(例如,法律判例、医学研究、复杂金融工具)所需的理解。
如果不对特定行业语料库进行微调,使用通用模型的向量搜索可能在专业化应用中导致次优的相关性。
这些局限说明,尽管向量搜索提供了语义理解的重要能力,但它并非所有搜索相关性难题的普遍解决方案。无法保证精确匹配、对术语新颖性和频率的敏感性、过度泛化的可能以及行业特异性问题,都需要补充性方法。通过将向量搜索与关键词检索(例如使用BM25)等方法相结合,后者擅长词汇匹配,我们可以构建混合搜索系统,它们结合两种方法的优点,从而在更广泛的查询范围内获得更高效的结果。接下来的部分将阐述如何有效地实施这些混合策略。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造