趋近智
正如本章引言中所述,生成合成数据只是第一步。我们需要验证生成的数据是否确实有用,并与它旨在模仿的原始数据相似。开始这项评估最直观的方式之一是进行视觉检查。这包括使用图表和图形查看合成数据,通常将其与真实数据并排比较。虽然这看起来很基本,但视觉检查通常是发现显著差异或确认生成过程方向正确的快捷方式。
视觉检查依赖于我们的模式识别能力。通过以不同方式绘制数据,我们可以感知其结构、分布以及变量之间的关联。这种方法对于掌握整体形状和趋势尤其有益,即便它不提供精确的数值分数。
对于数值特征(如年龄、价格或传感器读数),直方图和密度图是非常好的工具。它们显示了数据集中不同值范围出现的频率。
要评估您的合成数据,您可以从真实数据集和合成数据集中为特定特征创建直方图或密度图,并将它们一起绘制。
以下是一个比较“年龄”特征分布的例子:
使用叠加直方图比较年龄分布。我们正在寻找真实(蓝色)和合成(橙色)数据在形状、集中趋势和离散度上的相似性。
形状或范围上的显著差异可能表明合成生成过程未能很好地捕捉此特征的特点。
当您有多个数值特征时,散点图有助于可视化它们之间的关系。例如,您可以绘制“身高”与“体重”或“温度”与“压力”。
通过为真实数据集和合成数据集中的相同特征对创建散点图,您可以比较其中的模式。
一个比较“特征 A”和“特征 B”的例子。
散点图比较了真实(蓝色圆圈)和合成(橙色叉号)数据集中两个特征之间的关系。寻找相似的趋势和点的分布。
如果真实数据显示出清晰的对角线趋势,而合成数据显示的是随机点云,则生成方法未能捕捉到这些特征之间的关系。
对于分类特征(如“产品类别”、“城市”或“用户类型”),条形图很有用。它们显示了每个类别的频率或比例。
您可以从两个数据集中为分类特征创建条形图,以比较每个类别的计数或百分比。
比较“产品类别”频率的例子:
分组条形图比较了真实(蓝色)和合成(橙色)数据集中不同产品类别的计数。我们检查比例是否看起来合理相似。
对于合成图像数据,视觉检查通常是主要方法,尤其是在基础层面。
尽管简单,直接查看图像可以立即获得生成过程输出质量的反馈。
视觉检查是评估中一个有力的第一道防线:
优点:
局限性:
视觉检查是评估合成数据必不可少的起点。它提供即时、定性的反馈。然而,由于其局限性,它应始终辅以我们接下来将讨论的更量化的统计比较和基于效用的评估。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造