趋近智
观察图表能让你对数据有不错的感知,但有时我们需要确切的数字来进行更客观的比较。这时,基本的统计比较就很有用了。它们提供了一种定量的方法,来检验合成数据中单个特征(比如表格中的列)的根本属性是否与真实数据中的相符。
可以把这些统计数据看作是简单的概括。就像你可能会用几句话概括一本长书一样,平均值、中位数或标准差等统计量概括了数据列的重要方面。通过比较真实数据集和合成数据集之间的这些概括,你可以快速地从数值上查看它们在基本层面上的相似程度。
最常比较的统计量是集中趋势和离散程度的度量。
过程很简单:
例如,假设你拥有真实的客户数据和生成的合成客户数据。我们来看看“年龄”列:
在这种情况下,平均值非常接近(42.3对41.9),标准差也相当相似(10.5对10.8)。这表明,对于“年龄”特征,合成数据生成过程在捕捉平均值和围绕该平均值的典型离散程度上做得相当不错。
如果合成数据中的平均年龄是35.1岁呢?那个明显的差异会立即指出一个问题。与真实数据相比,合成数据在年龄上没有正确地居中。同样,如果合成数据的标准差是2.5岁,这将表明合成年龄不切实际地聚集在平均值附近,缺乏真实数据的多样性。
逐对比较数字是可行的,但如果特征很多,可能会很繁琐。一种常见的方法是计算两个数据集中所有相关特征的基本统计数据,然后将它们并排绘制出来,以便于比较。柱状图常用于此目的。
假设我们比较了三个特征的平均值:“年龄”、“收入”(单位:千美元)和“客户年限”。
选定特征在真实数据集和合成数据集之间的平均值比较。
我们可以对标准差做同样的事情:
选定特征在真实数据集和合成数据集之间的标准差比较。
这些图表能让你快速发现真实数据和合成数据之间基本统计量存在显著差异的特征。在上述例子中,“收入”在平均值和标准差方面都显示出比“年龄”或“客户年限”更大的相对差异,这表明合成过程对该特定特征的准确性可能较低。
匹配平均值和标准差等基本统计量是一个很好的初步检查,但这不保证合成数据是完美的复制品。两个数据集可能拥有相同的平均值和标准差,但形状或分布可能截然不同。考虑一下:一个值集中在两端的数据集,其平均值可能与一个值都集中在中间的数据集相同。
因此,这些基本的统计比较是评估中必要但并非充分的一步。它们能告诉你合成数据是否正确居中,以及单个特征是否具有相似的整体离散程度,但它们没有捕捉到数据结构的完整情况,也没有捕捉到特征之间的关系。我们需要将这种分析与目视检查以及比较整个数据分布的方法结合起来,我们将在接下来讨论这些。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•