在将合成数据应用于实际场景之前,严格评估其质量是必要的一步。本章将介绍有效进行此类评估的方法。我们将首先明确构成合成数据质量的核心方面:统计保真度(合成数据与原始数据的相似程度)、机器学习实用性(合成数据在模型训练中的有效性)以及隐私保护(数据对敏感信息的保护程度)。理解这些方面对于选择合适的评估方法非常重要。评估生成的数据会面临一些特有难题。我们将讨论这些常见问题,并检查在平衡数据$Fidelity$、机器学习任务的$Utility$和$Privacy$保证时,通常需要做出的必要权衡。为了应对各种可用的检查方法,我们将介绍一个结构化的评估指标分类体系,提供一种组织不同测量方法的体系。最后,我们将讲解如何实际配置Python环境,使用标准数据科学库,为您后续章节的实践操作做好准备。学完本章后,您将对评估合成数据所涉及的基本原理和要点有清晰的认识。