比较使用合成数据(如在“训练合成-测试真实”或 TSTR 框架中)训练的机器学习 (machine learning)模型与使用真实数据训练的基准模型的性能是重要的一步。目标是量化 (quantization)与使用原始真实数据相比,使用合成数据进行训练会损失或提升多少性能。这种分析构成了机器学习实用性评估的主要部分。
选择合适的性能指标
指标的选择完全取决于你正在评估的下游机器学习 (machine learning)任务的性质。没有单一的通用指标;你必须选择与模型要解决的问题相关的指标。
选择最能反映你特定应用成功标准的指标。通常,评估多个相关指标可以提供对模型性能的更全面认识。
比较过程
标准程序包括以下步骤:
- 训练基准模型: 使用真实训练数据集 (Dtrain_real) 训练你选择的机器学习 (machine learning)模型(例如,逻辑回归、随机森林、神经网络 (neural network))。
- 训练合成模型: 使用相同的超参数 (parameter) (hyperparameter),训练一个相同的模型架构,但这次使用合成训练数据集 (Dtrain_synth)。保持相同的模型配置对于公平比较很重要。
"3. 评估两个模型: 在相同的保留真实测试数据集 (Dtest_real) 上评估基准模型和合成模型。这是 TSTR 的本质——你想要知道使用合成数据训练的模型对未见数据的泛化能力如何。"
- 计算指标: 根据两个模型在 Dtest_real 上的预测,计算选定的性能指标(例如,准确率、F1、RMSE)。你将得到成对的分数,例如 Accuracyreal 和 Accuracysynth,F1real 和 F1synth 等。
结果解读
比较归结为分析从真实数据训练的模型和合成数据训练的模型获得的指标之间的差异。
- 直接比较: 查看绝对差值:Metricreal−Metricsynth。差异很小表明合成数据很好地保持了对该任务的实用性。
- 性能比率: 计算比率:MetricrealMetricsynth。这提供了一个标准化视角。
- 比率接近 1.0(例如,0.95 到 1.05)表明合成数据为训练此特定任务上的此特定模型提供了与真实数据几乎相同的实用性。
- 比率明显低于 1.0(例如,0.8)表明使用合成数据时性能有明显下降。这种下降是否可接受取决于应用的容忍度和使用合成数据所获得的好处(例如,隐私、数据增强)。
- 比率明显高于 1.0 是不寻常的,但如果合成数据生成过程以某种方式规范化了模型,或者比现有的真实训练数据更清楚地突出重要模式,则可能发生。这需要进一步查看。
可视化通常有助于同时比较多个指标。
比较了在真实数据和合成数据上训练的模型,并在真实测试集上评估的分类指标。这里的比率对于准确率约为 0.95,F1分数约为 0.94,AUC 约为 0.96。
重复此过程可能需要使用不同的下游模型类型,这一点很重要,因为有些模型可能比其他模型对合成数据中的缺陷更敏感。一个合成数据集可能对线性模型产生好的结果,但对复杂的深度学习 (deep learning)模型表现不佳,反之亦然。
"最终,比较这些下游性能指标提供了一个有形的、面向任务的合成数据实用性衡量标准。它回答了这个问题:"我可以使用这些合成数据来训练一个能在实际任务中表现良好的模型吗?""