趋近智
基础模型,例如大型语言模型(LLM)或视觉Transformer,通常会生成高维嵌入向量,维度常达数千。尽管这些嵌入包含丰富的语义信息,但其高维度在应用原型网络或匹配网络等标准基于度量的元学习算法时会带来一些障碍,因为这些算法高度依赖于嵌入空间中的距离计算。适配这些方法需要理解并减缓高维几何中固有的困难。
一个主要困难是“维度灾难”。在高维空间中,点之间的欧几里得距离趋于变得不那么有意义。具体来说,最近点与最远点之间距离的比率趋近于1,仅凭距离难以区分邻近点。这种现象会降低依赖最近邻比较或聚类中心点算法(如原型网络)的性能。
假设从 d 维超立方体中均匀采样 N 个点。随着 d 增加,这些点趋于聚集在边界附近,点对之间的距离变得更均匀。这使得基于距离的相似性区分度降低。余弦相似度衡量向量之间的角度,在处理高维文本或图像嵌入空间时,通常比欧几里得距离更受青睐,因为它对向量的大小和维度灾难的某些方面不那么敏感。然而,即使是余弦相似度,如果嵌入结构不佳也可能效果不理想。
基础模型生成的高维嵌入经过大量多样化数据集训练,用于通用表示。对于特定的少样本任务,这些维度中的许多可能不相关,甚至充当噪声,掩盖了对当前任务具有区分作用的维度。在完整嵌入空间上运行的度量学习方法可能难以侧重于相关特征。
此外,计算成对距离或涉及高维向量(例如 d>1000)的矩阵运算会带来显著的计算成本,特别是在元训练阶段,涉及大量任务和比较。
可以采用多种策略来适配高维嵌入的度量学习,这些嵌入源自基础模型:
在将嵌入输入度量学习算法之前,应用降维技术是一种常用方法。
权衡点在于潜在的信息损失与改进的度量行为和计算效率。有效性很大程度上取决于下游任务的相关信息是否在较低维子空间中得到保留。
标准距离度量可能不是最佳选择。替代方法包括:
假设对于任何给定任务,只有高维嵌入的一个小部分或子空间是相关的。可以设计方法来识别和使用这些任务特定的子空间。
对高维嵌入进行适当的预处理是必不可少的。
基础模型嵌入不只是随机的高维向量;它们具有预训练期间学习到的结构。度量学习适配应理想地加以应用这种结构。
设想一个少样本任务,其中类别是可分离的,但仅沿高维空间中的少数方向。使用欧几里得距离时,其他维度的噪声可能会掩盖这种分离。PCA可以帮助分离相关方差。
在此图中,原始高维嵌入(为便于可视化投影到2D)显示两个类别(蓝色圆点与红色圆点)之间的分离不那么清晰。在应用针对任务定制的降维(例如PCA或学习投影)后,类别在结果较低维空间中变得更可区分(蓝色菱形与红色菱形),使基于距离的分类更具可靠性。
总结来说,尽管基础模型嵌入的高维属性为传统度量学习带来了挑战,但涉及降维、优化距离度量、子空间方法和细致归一化的策略可以实现有效应用。策略的选择通常取决于计算预算、基础模型是固定还是可适配,以及所处理少样本任务的具体特点。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造