趋近智
尽管使用 Kolmogorov-Smirnov 等单变量统计检验来监测单个特征的漂移提供了基本检查,但它常常无法呈现完整情况。生产数据很少一次只改变一个特征。更常见的是,特征之间的关系发生变化,即使单个特征的边际分布看起来稳定,也会改变数据的联合分布。仅依赖单变量检验可能导致错误的安全感,遗漏了损害模型性能的明显漂移。
设想一个基于 收入 和 债务水平 预测贷款违约的模型。收入和债务的单个分布可能随时间保持相似。但如果相关性发生变化,例如高收入人群开始承担的债务比例高于以往,模型基于训练数据相关性对风险的理解就会过时。联合分布的这种变化就是多变量漂移,检测它需要超越单个特征的查看方法。
直接比较高维概率分布计算成本高且统计上困难,因为存在“维度灾难”。随着特征数量 () 的增加,特征空间的体积呈指数增长,使得数据点越来越稀疏。这种稀疏性使得很难准确估计密度或可靠地应用传统统计检验。多变量漂移检测方法旨在通过总结高维分布或关注对变化敏感的特定方面来克服这一点。
一种方法是使用考虑数据相关结构的距离度量。马哈拉诺比斯距离就是一个重要的例子。与平等对待所有维度的欧几里得距离不同,马哈拉诺比斯距离通过数据协方差进行缩放,测量点与分布中心(均值)之间的距离。
对于一个点 以及均值为 、协方差矩阵为 的分布,平方马哈拉诺比斯距离为:
在漂移检测的背景下,我们会将目标(生产)数据集与参考(训练)数据集进行比较。我们可以计算目标数据集中每个点相对于参考分布的均值 () 和协方差 () 的马哈拉诺比斯距离。
这些距离的分布提供了对漂移的理解。如果目标数据与参考数据遵循相同分布,则假设数据是多元正态的,平方马哈拉诺比斯距离应近似遵循具有 个自由度(其中 是特征数量)的卡方 () 分布。
常见方法如下:
优点:
缺点:
参考(蓝色)和目标(橙色)数据集的边际分布(投影到特征 1 或特征 2 轴上)看起来可能相似。但是,相关结构已明显改变,表明多变量漂移。对每个特征进行单变量检验可能会遗漏这种变化。
另一种策略是首先降低数据的维度,然后在低维空间中应用漂移检测方法(包括单变量方法)。其理念是,高维结构中的明显变化将表现为低维表示中的变化。
主成分分析(PCA)是一个常用选择。
另外,可以直接监测主成分。数据分布的明显变化可能会改变最大方差的方向或每个成分解释的方差量。比较参考数据和目标数据之间的 PCA 特征谱(特征值)可以显示此类结构变化。
优点:
缺点:
直接比较协方差矩阵: 存在直接比较参考协方差矩阵 与在一段近期数据上计算的目标协方差矩阵 的方法。这可能涉及计算矩阵距离(例如,弗罗贝尼乌斯范数 )或在多元正态性等假设下基于似然比的统计检验。这直接针对特征之间的线性关系的变化。
领域分类器(对抗验证): 如本章引言中简要提及的,训练一个分类模型来区分参考数据(标签 0)和目标数据(标签 1)是一种强大的、模型无关的方法。如果分类器获得高准确率(例如,AUC 明显大于 0.5),则表明两个数据集是可区分的,意味着漂移已经发生。分类器最依赖的特征还可以帮助诊断漂移的性质。这种方法将在后面“使用对抗验证进行漂移评估”部分详细说明。
最好的多变量漂移检测方法取决于以下因素:
在实践中,您可能会采用多种方法。例如,使用马哈拉诺比斯距离对整体分布偏移进行快速检查,辅以定期运行或当距离度量标记潜在漂移时运行的领域分类器,以获得更好的评估和可解释性。本章后面的实践练习将提供实现其中一种技术的经验。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造