趋近智
集成方法结合了多个独立模型的预测,常被用来不仅提高预测准确性,还作为对抗性攻击的一种启发式防御。其直观原因是,为欺骗某个特定模型而制作的对抗性样本可能对其他模型无效,特别是当集成模型的成员各不相同时(例如,架构不同,或在不同数据子集上训练)。然而,集成模型并非不受规避攻击影响。攻击它们需要考虑其聚合决策过程的特定策略。
我们来看一个由 M 个独立模型 f1,f2,…,fM 组成的集成 F。最终预测 F(x) 通常通过组合各个预测 fi(x) 得出,常用方法包括多数投票(用于分类)或平均概率。
F(x)=聚合(f1(x),f2(x),…,fM(x))攻击者的目标是找到一个扰动 δ,使得 F(x+δ)=F(x),同时满足 ∣∣δ∣∣p≤ϵ。
可以采用几种方法来生成对抗集成模型的对抗性样本:
运用可迁移性: 正如在可迁移性部分讨论的,为某个模型制作的对抗性样本通常对其他模型也有效,特别是那些在类似数据上训练或具有类似架构的模型。攻击者可以生成一个对抗性样本,以集成模型中某个单一的、可能较弱的成员 fi 为目标,并希望它能充分迁移以欺骗聚合决策 F。或者,攻击者可以训练自己的替代模型来模仿集成模型的行为(如果集成模型是黑盒),或者使用集成模型中已知的、可访问的模型作为代理。然后在这个替代/代理模型上执行攻击。虽然这种方法更简单,但它可能不如直接针对集成模型的攻击有效。
针对聚合输出的优化: 一个更直接的方法是,将攻击表述为一个以集成模型的组合输出为目标的优化问题。
同时攻击所有成员: 攻击者可以尝试找到一个单一扰动 δ,它对所有或大多数独立模型 fi 都有效。这通常涉及修改基于优化攻击中的目标函数。例如,目标不再是最小化单个模型的损失,而是最小化所有集成成员损失的总和或最大值:
最大化 i=1∑ML(fi(x+δ),y目标)或最大化 imaxL(fi(x+δ),y目标)受限于 ∣∣δ∣∣p≤ϵ。这通常会大幅增加攻击的计算成本,因为在每一步中都需要为所有模型计算梯度。
攻击集成模型的过程。攻击者寻找一个扰动 δ 来创建对抗样本 xadv,该样本被输入到多个模型(f1,f2,f3)中。各个模型的输出由一个聚合机制组合,目标是使最终的集成模型预测 F(xadv) 不正确。
攻击集成模型通常比攻击单一模型在计算上成本更高,特别是在针对聚合输出进行优化或同时攻击所有成员时。攻击的有效性通常取决于集成成员的多样性。由高度相似模型组成的集成模型可能不会比单一模型提供更多的额外弹性。反之,高度多样化的集成模型则在攻击上更具挑战性,难以通过单一的小扰动成功攻破。
在评估集成防御的鲁棒性时,使用专门为集成模型设计的攻击很重要,而不是仅仅依赖于针对单个成员生成的攻击的可迁移性。正如我们将在第6章中看到的,评估防御需要针对所测试的特定防御机制进行调整的自适应攻击。
下一节将提供一个实践环节,您将在其中实现本章中讨论的一些规避攻击,可能包括基本的集成攻击思想。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造