趋近智
在我们对推断攻击有了认识后,我们现在关注旨在显露模型训练数据中特定(通常是敏感)特征的技术。成员推断是询问某个记录是否在训练集中,而属性推断则是尝试确定训练记录中特定属性的值,即使该属性在推断过程中并未直接用作输入。
设想一个机器学习模型,它根据各种申请人特征训练来预测贷款资格。攻击者可能拥有关于申请人的部分信息(例如,年龄、位置、请求的贷款金额),并查询该模型。根据模型的预测(或其置信分数),攻击者可能会尝试推断一个最初未知的敏感属性,例如申请人的种族或婚姻状况,特别是如果这些属性是原始训练数据的一部分,并且与模型的输出存在关联。
正式来说,假设训练集 Dtrain 中的一个数据记录 x。该记录通常可以分为公共或已知特征 xpub 以及一个或多个敏感属性 xsens,即 x=(xpub,xsens)。攻击者的目标是,在可以访问模型 f 以及已知属于训练集的目标个体的公共特征 xpub 的情况下,确定 xsens 的值。
这种攻击造成了重大的隐私风险,因为它使得攻击者可以知晓那些数据被用于训练的个体的潜在隐私信息,凭借模型作为信息泄露的途径。
已发展出多种方法来执行属性推断,这些方法通常取决于攻击者的已知信息以及他们对目标模型的访问类型。
一种比较直观的方法依赖于模型产生的置信分数。其核心思想是,即使敏感属性在预测期间并未直接输入模型,模型在其预测中也可能表现出不同的置信水平,这取决于该敏感属性的值。
假设攻击者知道目标记录 x 的 xpub。他们想确定 xsens 等于值 v1 还是值 v2。攻击者可以构造两个输入:x1′=(xpub,xsens=v1) 和 x2′=(xpub,xsens=v2)。尽管攻击者可能无法直接用 xsens 进行查询,但他们可以观察模型输出 f(x)(其中 x 是带有未知 xsens 的实际记录)或类似已知记录的相关输出。
攻击者假设,如果真实敏感属性是 v1,则模型输出 f(x) 可能与输出 f(x1′) 相比更“接近”(某种程度上,或许是预测置信度)而非与 f(x2′) 接近。这通常涉及观察到,当模型遇到训练数据中特定子群体的输入特征时,有时会表现出更高的置信度或犯特定类型的错误。
例如,攻击者可能会观察人脸识别模型识别一个人的置信分数。如果攻击者假设该人属于某个特定人口群体(根据辅助信息或统计可能性),并且模型表现出显著更高的置信度,则他们可能会推断该人很可能属于该群体。
一种更正式的统计方法是使用似然比。攻击者比较在敏感属性的不同可能值下,观察到模型输出(例如,预测概率)的可能性。
设 O 是当用与目标记录相关的信息查询模型 f 时(通常使用 xpub)观测到的输出。攻击者想在两个假设之间做出判断:H1:xsens=v1 和 H2:xsens=v2。似然比为:
LR=P(O∣H2)P(O∣H1)如果 LR>1,则在 xsens=v1 的假设下,观测到的输出更有可能出现。如果 LR<1,则 xsens=v2 的可能性更大。计算这些条件概率 P(O∣Hi) 通常需要攻击者具备一些背景信息,或者构建一个模型来描述 f 的输出与 xsens 之间的关联。
类似于成员推断中的影子训练,攻击者可以专门为属性推断训练一个攻击模型。
此过程通常包含以下步骤:
这种方法的成功很大程度上取决于用于训练攻击模型的数据的质量和相关性,以及目标模型输出与敏感属性之间的关联程度。
攻击者使用已知公共特征和目标模型的相应输出来训练攻击模型,从而预测新目标记录的未知敏感属性。
属性推断攻击的有效性取决于多个因素:
假设有一个模型,它根据用户帖子训练以分类情感(积极/消极)。训练数据包括帖子文本(用作输入)和如用户位置(潜在敏感)之类的元数据。攻击者可能可以访问用户的帖子 (xpub) 和模型的情感预测 f(x)。如果来自某些位置的用户倾向于使用特定措辞或讨论影响情感预测的本地话题,攻击者就可能训练一个攻击模型 gattack(posts,f(posts)) 来推断用户的地理位置 (xsens)。
示例分布显示了模型置信度如何根据潜在的敏感属性而有所不同。当属性为 B 时,高置信度预测更频繁,这可能使得攻击者通过观察置信分数来推断该属性。
属性推断本质上是一种隐私攻击。它表明,即使模型不直接请求或输出敏感数据,模型的行为仍然可能泄露这些信息。差分隐私等技术旨在通过确保模型输出不会因训练集中是否包含任何单个个体(及其属性)而发生显著变化,从而提供对抗此类泄露的形式保障。减少过拟合的正则化方法也可以间接帮助减轻属性推断,通过阻止模型记住与敏感属性相关的虚假关联。我们将在第 5 章中更详细地讨论包括差分隐私在内的推断攻击防御措施。
“了解属性推断对评估部署机器学习模型(特别是那些用敏感个人数据训练的模型)的隐私影响而言非常必要。它促使我们不仅要考虑模型准确性,还要考虑通过模型交互导致信息泄露的可能性。”
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造