趋近智
匹配单个特征的分布是必要的检查,但这远不足以确立统计保真度。数据集很少由独立的变量组成。相反,特征之间通常存在复杂的相互依赖关系。一个合成数据集可能完美地复制了特征A和特征B各自的均值和标准差,但却完全未能捕获数据中两者之间观察到的强正向关系。分析相关性和协方差结构通过关注这些成对关系来解决这一不足。
相关性衡量两个数值变量之间线性关系的强度和方向,其范围从-1(完全负相关)到+1(完全正相关),0则表示没有线性相关。相关矩阵提供了数据集中所有成对线性关系的全面视图。对于一个包含n个特征的数据集,它是一个n×n的对称矩阵,其中元素(i,j)表示特征i和特征j之间的相关系数。对角线元素始终为1,表示特征与其自身的相关性。
为了评估保真度,我们计算真实数据集的相关矩阵,称之为Rcorr,以及合成数据集的相关矩阵,Scorr。目标是比较Rcorr和Scorr。
一种直接且通常有帮助的方法是使用热图并排显示两个矩阵。模式、颜色或强度上的差异会立即显示捕获的线性结构中的不一致之处。
真实数据和合成数据相关矩阵的并排热图。相似的颜色模式表明线性关系具有良好的保真度。
视觉检查有其用处但存在主观性。我们需要定量指标来总结Rcorr和Scorr之间的差异。
逐元素差异分析: 计算差异矩阵 D=Rcorr−Scorr。分析D中元素的分布。常见的统计量包括:
矩阵距离指标: 将相关矩阵视为高维空间中的点,并计算它们之间的距离。差值的Frobenius范数是常见的选择: ∣∣Rcorr−Scorr∣∣F=∑i=1n∑j=1n(rij−sij)2 较小的Frobenius范数表示相关结构之间有更高的相似度。
协方差与相关性相似,但未经标准化。它衡量线性关系的方向,但其大小取决于各个特征的方差。协方差矩阵的元素(i,j)表示特征i和特征j之间的协方差。对角线元素表示每个特征的方差(Var(Xi))。
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
您可以使用应用于相关矩阵的相同技术来比较真实数据集(Rcov)和合成数据集(Scov)的协方差矩阵:视觉热图、逐元素差异分析和矩阵范数(如Frobenius范数)。
然而,如果真实数据和合成数据之间的边际方差差异很大,即使底层关系结构相似,直接比较协方差矩阵有时也可能产生误导。如果合成数据生成过程单独旨在匹配边际分布(包括方差),那么协方差比较是有用的。如果主要关注的是线性依赖关系的尺度不变结构,通常更推荐相关矩阵比较。
通过比较相关性和协方差结构,您可以获得重要信息,以了解合成数据是否保留了原始数据中存在的成对线性关系,从而向更全面的统计保真度评估迈进。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造