匹配单个特征的分布是必要的检查,但这远不足以确立统计保真度。数据集很少由独立的变量组成。相反,特征之间通常存在复杂的相互依赖关系。一个合成数据集可能完美地复制了特征A和特征B各自的均值和标准差,但却完全未能捕获数据中两者之间观察到的强正向关系。分析相关性和协方差结构通过关注这些成对关系来解决这一不足。
比较相关矩阵
相关性衡量两个数值变量之间线性关系的强度和方向,其范围从-1(完全负相关)到+1(完全正相关),0则表示没有线性相关。相关矩阵提供了数据集中所有成对线性关系的全面视图。对于一个包含n个特征的数据集,它是一个n×n的对称矩阵,其中元素(i,j)表示特征i和特征j之间的相关系数。对角线元素始终为1,表示特征与其自身的相关性。
为了评估保真度,我们计算真实数据集的相关矩阵,称之为Rcorr,以及合成数据集的相关矩阵,Scorr。目标是比较Rcorr和Scorr。
使用热图进行视觉比较
一种直接且通常有帮助的方法是使用热图并排显示两个矩阵。模式、颜色或强度上的差异会立即显示捕获的线性结构中的不一致之处。
真实数据和合成数据相关矩阵的并排热图。相似的颜色模式表明线性关系具有良好的保真度。
定量比较指标
视觉检查有其用处但存在主观性。我们需要定量指标来总结Rcorr和Scorr之间的差异。
-
逐元素差异分析: 计算差异矩阵 D=Rcorr−Scorr。分析D中元素的分布。常见的统计量包括:
- 平均绝对差 (MAD):D的上(或下)三角中元素绝对值的平均值。值越小越好。
MAD=n(n−1)2∑i=1n∑j=i+1n∣rij−sij∣
- 最大绝对差:对应相关系数之间的最大绝对差。有助于找出复制效果最差的关系。
- 均方根误差 (RMSE):与MAD相似,但对更大的误差给予更重的惩罚。
-
矩阵距离指标: 将相关矩阵视为高维空间 (high-dimensional space)中的点,并计算它们之间的距离。差值的Frobenius范数是常见的选择:
∣∣Rcorr−Scorr∣∣F=∑i=1n∑j=1n(rij−sij)2
较小的Frobenius范数表示相关结构之间有更高的相似度。
比较协方差矩阵
协方差与相关性相似,但未经标准化。它衡量线性关系的方向,但其大小取决于各个特征的方差。协方差矩阵的元素(i,j)表示特征i和特征j之间的协方差。对角线元素表示每个特征的方差(Var(Xi))。
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
您可以使用应用于相关矩阵的相同技术来比较真实数据集(Rcov)和合成数据集(Scov)的协方差矩阵:视觉热图、逐元素差异分析和矩阵范数(如Frobenius范数)。
然而,如果真实数据和合成数据之间的边际方差差异很大,即使底层关系结构相似,直接比较协方差矩阵有时也可能产生误导。如果合成数据生成过程单独旨在匹配边际分布(包括方差),那么协方差比较是有用的。如果主要关注的是线性依赖关系的尺度不变结构,通常更推荐相关矩阵比较。
局限性与考量
- 线性: 相关性和协方差都只捕获线性依赖关系。特征可能以非线性方式(例如,U形关系)强相关,但这会导致相关系数较低。这些方法无法捕获此类非线性结构。对于非线性依赖,需要其他技术,例如基于互信息的方法(将在“信息论度量”部分讨论)。
- 分类数据: 标准的相关性/协方差是为数值特征定义的。对于包含分类特征的数据集,您可能需要使用不同的关联度量(如Cram\u00e9r's V)或特定的编码策略,尽管解释混合类型“相关”矩阵需要谨慎。
- 异常值: 相关性和协方差计算可能对数据中的异常值敏感。可能需要进行预处理步骤或使用抗干扰方法。
- 解释: 相关矩阵中的微小差异通常是好的,但可接受的阈值很大程度上取决于后续应用。相关系数0.05的差异对于某个任务可能微不足道,但对于严重依赖该特定特征相互影响的另一个任务则可能很重要。
通过比较相关性和协方差结构,您可以获得重要信息,以了解合成数据是否保留了原始数据中存在的成对线性关系,从而向更全面的统计保真度评估迈进。