成员推断攻击 (MIAs) 是一种主要的隐私威胁类型,旨在判断特定数据记录是否是用于构建机器学习 (machine learning)模型(包括生成模型)的原始训练数据集的一部分。在评估合成数据时,了解和量化 (quantization)这些风险非常必要,尤其是在它旨在作为真实数据的隐私保护替代品时。一次有效的 MIA 表明生成模型可能“记住了”其训练数据的一些方面,可能泄露关于该数据集中个人或实体的信息。
MIA 背后的基本思想令人惊讶地简单:训练一个辅助机器学习模型,即攻击模型,以区分用于训练目标模型(正在评估的生成模型)的数据点和未用于训练的数据点。如果攻击模型能够达到显著优于随机猜测的准确率,则意味着目标模型处理其训练数据与未见数据的方式存在可识别的差异,表明可能存在信息泄露。
MIA 如何利用生成模型
生成模型,特别是 GAN 或 VAE 等复杂模型,从训练数据中学习复杂的模式和分布。虽然目标是泛化并生成新样本,但始终存在过拟合 (overfitting)或记忆的风险,尤其是对于原始数据集 Dtrain 中独特或异常的数据点。
MIA 通常通过观察目标生成模型的行为或分析其输出的特征来利用这一点。例如:
- 生成模型可能会生成与训练集中特定记录异常相似的合成样本。
- 如果模型提供似然分数(在 VAE 或流基模型中常见),训练数据点可能持续获得比来自相同分布的未见数据点更高的似然值。
- 在 GAN 中,当判别器组件接收到训练数据与相似的非训练数据时,可能会表现出不同的输出模式(例如,更高的置信度)。
设置成员推断攻击
进行 MIA 涉及几个组成部分:
- 目标生成模型: 正在审查其合成数据隐私的模型 (G)。该模型使用原始数据集 Dtrain 进行训练。
- 原始训练数据 (Dtrain): 用于训练 G 的敏感数据集。
- 保留数据 (Dout): 一个与 Dtrain 来自相同基础分布,但与 Dtrain 不重叠的数据集(即包含未用于训练 G 的记录)。
- 攻击模型: 一个二分类器(例如,逻辑回归、支持向量 (vector)机、随机森林、简单神经网络 (neural network)),训练用于预测成员身份(1 表示成员,0 表示非成员)。
- 攻击训练数据: 这是设置变得有趣的地方。攻击模型需要“成员”和“非成员”行为的标记 (token)示例。构建方式有所不同:
- 基于输出的攻击: 将 Dtrain 中的记录(成员)和 Dout 中的记录(非成员)输入到目标模型 G(或其部分,如 GAN 的判别器或 VAE 的编码器/解码器),并使用其输出(例如,判别器分数、重构误差、似然值)作为攻击模型的特征。对于源自 Dtrain 的输出,标签为“1”;对于源自 Dout 的输出,标签为“0”。
- 基于数据的攻击: 将生成的合成数据 Dsyn 直接与保留数据 Dout 进行比较。攻击模型尝试区分合成样本与真实的、未见过的样本。虽然这种方法更简单,但它不那么直接是针对训练集成员的推断攻击,而更多是对合成数据真实性的一种测试。一种变体涉及检查合成样本是否异常接近 Dtrain 中的记录。
影子模型技术
训练攻击模型的一种更复杂且通常更实际的方法涉及影子模型。直接的基于输出的攻击需要访问目标模型的内部输出,包括已知成员 (Dtrain) 和已知非成员 (Dout) 的。这可能并非总是可行,或者可能无法准确反映攻击者在不完全了解 Dout 的情况下如何操作。
影子模型技术更接近地模拟攻击者的视角:
- 训练影子模型: 训练多个(例如 k 个)生成模型 (G1′,G2′,...,Gk′),这些模型与目标模型 G 具有相同的架构和超参数 (parameter) (hyperparameter)。每个影子模型 Gi′ 在一个不同的数据集 Dtrain,i′ 上进行训练。这些数据集通常是原始 Dtrain 的子集或从类似分布中抽取,模仿目标模型所训练的数据。重要的是,对于每个 Dtrain,i′,我们也有一个对应的非重叠保留集 Dout,i′。
- 生成攻击训练数据: 对于每个影子模型 Gi′:
- 使用其已知训练集 Dtrain,i′ 中的记录查询 Gi′(或其组件)。收集输出(例如,分数、误差)并将这些实例标记 (token)为“成员”(1)。
- 使用其已知非训练集 Dout,i′ 中的记录查询 Gi′。收集输出并将这些实例标记为“非成员”(0)。
- 训练攻击模型: 汇总所有 k 个影子模型收集到的标记输出。在该组合数据集上训练攻击模型。攻击模型根据在影子模型中观察到的行为,学习区分成员和非成员模型输出的一般模式。
- 攻击目标模型: 使用训练好的攻击模型,通过将原始训练集 Dtrain 中的记录输入到目标模型 G 并观察其输出来预测它们的成员身份。攻击模型对这些输出的预测表明推断的成员概率。
图示了影子模型技术。多个影子模型在不同的数据分区上训练,为攻击模型生成标记训练数据。然后,该攻击模型被用于目标模型的输出,以推断成员身份。
评估 MIA 性能
MIA 的有效性使用标准二分类指标来衡量,这些指标应用于攻击模型的预测:
- 准确率: 正确预测的总百分比(将成员识别为成员,将非成员识别为非成员)。对于平衡的测试集,准确率显著高于 50% 表明存在脆弱性。
准确率=总样本数真阳性+真阴性
- 精确率: 在被预测为成员的记录中,有多少是实际的成员?高精确率意味着当攻击将某个记录标记 (token)为成员时,它是可靠的。
精确率=真阳性+假阳性真阳性
- 召回率(敏感度): 在所有真正的成员中,有多少被正确识别?高召回率意味着攻击擅长找到成员。
召回率=真阳性+假阴性真阳性
- F1 分数: 精确率和召回率的调和平均数,提供一个平衡两者的单一指标。
F1=2×精确率+召回率精确率×召回率
- AUC(ROC 曲线下面积): 评估攻击模型在所有可能的分类阈值下区分两类的能力。AUC 为 0.5 表示随机猜测,而 AUC 为 1.0 表示完美分离。较高的 AUC 值意味着更有效的攻击,从而带来更大的隐私风险。
示例 ROC 曲线图示了 MIA 的性能。曲线越接近左上角,表明攻击越成功(AUC 越高),这意味着更大的隐私风险。对角线代表随机机会。
解释与注意事项
一次成功的 MIA(例如,高准确率或高 AUC)提供了潜在隐私泄露的经验证据。它表明生成模型对其训练过的数据点与未见过但相似的数据点表现不同。这可能源于过拟合 (overfitting)或对训练样本的显式记忆。
然而,重要的是要记住:
- MIA 结果是经验估计,而非像差分隐私(将在下文讨论)那样提供的正式保证。
- 攻击的成功与否可能严重依赖于攻击模型的选择、所使用的特征以及特定的数据分布。
- 较低的 MIA 成功率不保证隐私,但相比于较高的成功率,它能提供一些信心。
- 模型效用/忠实度与隐私之间通常存在一种权衡。非常准确地捕获训练数据分布的模型可能更容易受到 MIA 的影响。
实施 MIA,特别是使用影子模型方法,需要仔细设置,并且可能是计算密集型的。专门为机器学习 (machine learning)中的隐私评估设计的库和框架正在出现,但通常需要针对特定生成模型进行调整。运行这些攻击可以为您的合成数据生成过程的隐私状况提供宝贵的定量反馈。