趋近智
在介绍完对抗性机器学习的基本原理后,本章集中于规避攻击。它们是在模型推断阶段执行的攻击,通过向输入数据引入精心制作的扰动,旨在导致模型错误分类。目标通常是找到一个小的扰动δ,使得输入x被修改为xadv=x+δ,导致模型f输出一个不正确的预测,f(xadv)=f(x),同时满足对扰动大小的限制,这些限制通常使用像∣∣δ∣∣p≤ϵ这样的Lp范数来定义。
本章审视了生成这些对抗样本的几种高级方法。我们将分析从基本的基于梯度的攻击(如FGSM、BIM)到更有效的迭代方法(如投影梯度下降(PGD))的演变。您将学习基于优化的方法,以Carlini & Wagner (C&W)攻击为例,这些方法常能找到高效、低失真的扰动。我们还将涵盖在攻击者知识有限的情况下适用的技术,包括基于分数的攻击(使用模型置信分数)和基于决策的攻击(仅使用最终预测标签)。此外,我们将研究不同模型之间攻击的可迁移性以及攻击集成模型的具体策略。本章最后是一个实践部分,您将在其中实现一些这些进阶规避攻击技术。
2.1 基于梯度的攻击:FGSM、BIM、PGD分析
2.2 基于优化的攻击:Carlini & Wagner 方法
2.3 基于评分的攻击技术
2.4 基于判定的攻击方法
2.5 对抗样本的可迁移性
2.6 攻击集成模型
2.7 实现规避攻击:动手实践
© 2026 ApX Machine Learning用心打造