虽然比较边缘分布和基本统计数据能为我们提供关于合成数据保真度的初步线索(如前所述),但这些方法在捕捉高维数据集中复杂关系方面往往不足。我们需要能评价合成数据的整体结构和联合分布是否真正模拟真实数据的技术。倾向得分评估提供了一种有效方法,可以精确衡量这种整体统计相似性。
这个中心思想出乎意料地直接:我们能否训练一个机器学习模型,根据数据点的特征可靠地辨别真实数据点和合成数据点?如果两个数据集在统计上相似,任何分类器都应该难以区分它们。反之,如果合成数据在模式和分布上与真实数据显著不同,分类器就应该能轻松学会分离它们。
倾向得分方法
- 合并数据集: 通过拼接真实数据集(Dreal)和合成数据集(Dsynth)来创建一个新数据集。
- 添加来源标签: 引入一个二元目标变量,我们称之为
source,将 source 设为 0 代表源自 Dreal 的记录,将 source 设为 1 代表源自 Dsynth 的记录。
- 训练分类器: 在这个合并数据集上训练一个标准分类模型(例如,逻辑回归、梯度提升机如LightGBM或XGBoost、随机森林)。特征是原始数据列,目标是
source 标签。
- 评估分类器: 评价分类器辨别真实数据和合成数据点能力。常用指标包括受试者工作特征曲线下面积(AUC)或准确率。
分类器对给定数据点 x 的输出概率 P(来源=1∣x),就是倾向得分。它表示模型估计数据点 x 属于合成数据集的概率。
结果解释
这个“鉴别器”模型的表现直接衡量了统计保真度:
- 高表现 (AUC ≈ 1.0): 如果分类器获得高准确率或AUC接近1.0,这表示它能轻松分离真实数据点和合成数据点。这表明统计保真度差。合成数据生成过程未能准确捕捉真实数据的底层结构,留下了模型可以辨别的差异。
- 低表现 (AUC ≈ 0.5): 如果分类器表现不佳,准确率接近50%或AUC接近0.5(相当于在平衡数据集上的随机猜测),这表明真实数据点和合成数据点在特征上统计上无法区分。这表明统计保真度好。合成数据成功模拟了真实数据的特征和联合分布。
0.5到1.0之间的得分反映中等保真度。例如,AUC为0.7表明存在一些不相似之处,但可能不如AUC为0.9的情况那么明显。可接受的阈值通常取决于具体应用要求。
倾向得分可视化
除了单一AUC指标外,可视化真实和合成样本的预测倾向得分分布提供了更多信息。理想情况下,两个分布应该高度重叠。分布之间的显著分离表明分类器学到的系统差异。
真实数据和合成数据倾向得分的重叠直方图。高度重叠,并集中在0.5附近,表明良好的统计保真度。
如果分布是分离的,真实数据得分聚集在0附近,合成数据得分聚集在1附近,这将视觉上证实保真度差。
优点与注意事项
优点:
- 整体评估: 提供单一指标(AUC),总结所有特征及其彼此关系的整体统计相似性。
- 多变量敏感性: 隐含捕捉复杂多变量关系中的差异,因为分类器同时使用所有特征。
- 模型无关: 可以使用多种分类算法。
注意事项:
- 分类器选择: 分类器的选择很重要。像逻辑回归这样的简单模型可能会遗漏不明显的非线性差异,而高度复杂的模型(例如深度神经网络)可能会轻微过拟合或发现微小、可能不重要的差异,从而导致过于悲观的评估。使用正则化良好、标准的模型,如梯度提升或随机森林,通常是一个良好平衡的选择。
- 数据预处理: 为了获得最佳分类器表现,通常建议进行标准预处理步骤,如特征缩放(例如标准化)。
- 解释: 尽管AUC ≈ 0.5是理想目标,但实际结果需要背景。比较使用不同方法或参数生成的不同合成数据集的倾向得分。
- 诊断局限性: 高AUC告知你数据集不同,但不能说明它们如何或在哪里不同。它不会指出哪些特定特征或相关性复制不佳。因此,倾向得分评估是其他方法(如直接分布比较或相关性分析)的补充,而不是替代。
倾向得分评估是高级评估工具集中一个有价值的工具。通过将保真度问题视为分类问题,它提供了一种实用且易于解释的方式,量化合成数据集多大程度上捕捉到其真实对应数据的整体统计属性。这对于比较不同合成生成模型或超参数设置特别有用。