创建合成数据是整个过程的一部分;确保其质量以及对机器学习任务的适用性,是另一个必要的步骤。仅仅生成数据是不够的。我们需要方法来判断合成数据是否准确反映了真实数据的特征,以及它是否能有效用于模型训练。本章着重介绍评估生成数据的方法。你将了解评估的重要性,并研究几种技术。我们将介绍使用图表进行的可视化检查,以及基础的统计比较,例如检查合成数据集中特征的均值 ($\mu$) 或标准差 ($\sigma$) 是否与原始数据一致。此外,我们还将介绍比较数据分布的方法,例如使用直方图或密度图。最后,我们将讨论数据保真度(合成数据与真实数据相似的程度)和效用(合成数据对于特定机器学习目标的有效性)之间重要的区别。