趋近智
如前所述,嵌入模型通常会生成数百甚至数千个维度的向量。尽管这些高维空间能够捕捉复杂关联,但它们也会带来一些难题,通常称为“维度灾难”。处理极高维度的数据可能导致:
降维技术提供了一种缓解这些问题的方法。其根本目的是将数据从高维空间转换为低维空间,同时尽可能保留原始数据中具有意义的特性。可以将其设想为在较少维度中创建原始数据的简洁概括或一个投影。
降维将点从高维映射到低维的一个示例。
我们希望保留哪些特性?这取决于所用技术和目标:
尽管算法众多,但您会遇到的两种常见方法是主成分分析(PCA)和均匀流形逼近与投影(UMAP)。
PCA是一种线性技术,旨在数据中找到能捕获最大方差的方向(主成分)。设想旋转数据轴,使第一个新轴与最大散布方向对齐,第二个轴(与第一个轴正交)与次大散布方向对齐,依此类推。通过只保留前几个主成分,您可以在更少的维度中保留数据的大部分总体方差。当您关注的潜在结构与此方差相关时,它很有效。
UMAP是一种非线性技术,特别擅长保留数据的局部结构和拓扑特性。它力求确保高维空间中距离近的点在低维映射中仍保持距离近。UMAP常用于高维嵌入的可视化(例如将其降至2D或3D以作图),因为它能够展示那些可能被PCA等仅侧重全局方差的技术所掩盖的簇和关联。
应用降维技术可以带来多项益处:
然而,存在固有的权衡:
尽管现代向量数据库及其相关联的ANN索引算法(如HNSW,我们将在第3章讨论)专门设计用于高效处理高维向量,但对降维的认识仍然很有价值。
在实际应用中,对于许多使用现代嵌入模型(通常维度为384、768或1024)的语义搜索任务,开发者通常直接索引全维度向量,依赖ANN算法的能力。然而,降维仍然是数据科学家工具集中的一项重要方法,尤其适用于分析、可视化或资源受限的环境。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造