趋近智
检测训练数据与服务数据之间的差异(即线上/线下偏差)是执行一致性检查的主要目的。然而,数据分布也可能在服务环境 内部 随时间逐渐或突然改变,这种现象通常称为数据漂移或概念漂移(指特征与目标变量之间关系的变化)。因此,持续监控特征分布对于初始一致性以及模型持续健康运行和可靠性都必不可少。未能察觉漂移可能导致模型性能无声地下降。
这种监控包括追踪新数据流入特征存储时特征的统计属性,并将其与基准(通常是训练数据集中观察到的分布或稳定的历史时间窗口)进行比较。
具体指标取决于特征类型(数值、类别、文本、嵌入)。
数值特征:
类别特征:
嵌入/文本特征: 监控高维或非结构化数据的分布更为复杂。方法可能包括追踪嵌入向量分量的统计数据,在应用标准方法前使用降维,或监控从文本本身导出的指标(例如,文本长度、词汇变化)。
比较整个分布需要的不仅仅是查看单个统计数据。常用以下几种量化方法:
这些检验评估两个样本(例如,参考数据和当前数据)来自相同底层分布的可能性。
柯尔莫哥洛夫-斯米尔诺夫 (KS) 检验: 主要用于数值特征,双样本KS检验比较两个样本的累积分布函数(CDF)。它计算两个CDF之间的最大绝对差。较小的p值表明分布存在显著差异。虽然有统计学依据,但KS检验可能对微小偏差过于敏感,尤其是在大型数据集上。其敏感度在中位数附近最高,在尾部较低。
卡方检验: 适用于类别特征。它将当前数据中的观察频率与基于参考分布的期望频率进行比较。与KS检验类似,它产生一个p值,表明如果分布相同,观察到的差异偶然发生的可能性。它要求每个类别有足够的样本量。
量化差异的单一分数通常比解释p值更适合用于监控阈值。
群体稳定性指标 (PSI): PSI在信用风险建模中应用广泛,它衡量变量在两个群体(参考群体与当前群体)之间分布的变化。它适用于数值(分箱后)和类别特征。
对于一个变量,如果它被分为 n 个箱或类别,令 Ri 为参考群体中第 i 个箱的观测值百分比, Ci 为当前群体中第 i 个箱的百分比。PSI的计算公式如下:
PSI=i=1∑n(Ci−Ri)×ln(RiCi)PSI的常见解释准则:
詹森-香农 (JS) 散度: 衡量两个概率分布之间的相似度。它基于库尔巴克-莱布勒 (KL) 散度,但它是对称的,并且始终具有有限值(对于以2为底的对数,范围从0(分布相同)到1(分布差异最大))。可应用于分箱后的数值数据或类别数据。
Wasserstein距离(推土机距离): 对于数值特征,它衡量将一个分布转换为另一个分布所需的最小“成本”。它通常被认为比KS检验对分布形状的变化更敏感,尤其是在分布没有显著重叠时。
建立有效的分布监控涉及多个实际考量:
几个重要特征的群体稳定性指标 (PSI) 值,比较当前数据与训练分布。虚线表示轻微(0.1)和主要(0.25)分布漂移的常见阈值。“会话时长”显示主要漂移,而“登录频率”和“账户使用时长”显示轻微漂移。
当监控检测到显著漂移时:
持续监控特征分布不仅仅是一项数据质量工作;它是生产环境中维持机器学习系统可靠性和可信度的基础组成部分。它提供潜在问题的早期预警,使得在模型性能显著下降之前能进行主动干预。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造