趋近智
虽然比较均值 (μ) 和标准差 (σ) 等基本统计量能提供快速检查,但这并不能完全展现合成数据的全貌。两个数据集对于某个特征可能具有相同的均值和标准差,但在数值分布方式上可能看起来完全不同。这就是为什么比较特征的分布变得有意义的原因。我们希望了解合成数据集中数据点的整体形状和分散情况是否与真实数据集中的数据点一致。
可视化比较分布最直接的方法之一是使用直方图。直方图将数值数据分组到不同的区间(bins)中,并显示落入每个区间的数据点的频率(计数)。通过绘制真实数据集和合成数据集中相同特征的直方图,我们可以直接比较它们的形状。
假设我们有一个包含客户年龄的真实数据集,并且我们生成了一个合成版本。我们可以绘制这两个数据集中“年龄”特征的直方图。
使用直方图比较年龄分布。蓝色条形表示真实数据,橙色条形表示合成数据。
查看这些直方图时,请思考:
预计会有细微的差异,但大的差异(例如,合成数据在真实数据为谷值的地方显示峰值)表明生成过程未能很好地捕获此特征的分布。
直方图效果很好,但箱体大小的选择有时会影响分布的显示方式。可视化分布的一种更平滑的方法,特别是对于连续数据,是使用核密度估计 (KDE),通常显示为密度图。密度图试图估计数据点所来自的潜在概率分布,从而产生一条平滑曲线。
比较密度图可以更容易地看出形状和峰值的细微差别。
使用密度图(此处使用并列的小提琴图表示)比较年龄分布。蓝色区域显示真实数据的密度,橙色区域显示合成数据的密度。
同样,寻找形状、峰值位置和整体分散情况的相似之处。密度图在确定数据中的众数(峰值)方面特别有用,这些众数在直方图中可能被分箱选择所遮蔽。
数据生成不仅仅是正确获取单个特征的分布;它还需要保持特征之间的关联性。例如,在一个真实数据集中,身高和体重可能呈正相关。我们的合成数据是否显示相同的趋势?
检查两个数值特征之间关联性的简单方法是使用散点图。为真实数据创建一个散点图,为合成数据创建另一个散点图,并绘制相同的两个特征。
显示真实数据集中身高与体重之间关联的散点图。
显示合成数据集中身高与体重之间关联的散点图。
比较这两个图中的模式。合成数据是否显示出与真实数据相似的趋势(例如,正相关、负相关、无清晰模式)?点的分散情况或密度是否大致可比?这里存在的明显差异表明生成方法未能捕获这些特征之间的相互关系。
通过使用直方图、密度图和散点图直观地比较分布,可以比单独使用基本统计量更全面地认识合成数据质量。它有助于我们评估合成数据是否真正模仿了真实数据中存在的结构和关联性,使我们更接近于了解其潜在的真实度。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造