趋近智
计算机视觉模型虽然功能强大,但它们在高维输入(像素)上运行,这使得它们特别容易受到对抗性扰动的影响。即使是对图像进行微小、精心构造的改变,通常人眼难以察觉,也可能导致卷积神经网络(CNN)等精密模型错误分类物体、未能检测到它们,甚至为图像区域分配不正确的标签。对抗性攻击在计算机视觉模型上表现出来,并适应于核心计算机视觉任务。
在之前讨论的基础攻击方法(第2章)的基础上,例如投影梯度下降(PGD)攻击和Carlini & Wagner(C&W)攻击,我们现在将重点放在它们在视觉任务中的应用和改进。
攻击视觉模型的一个核心要点是保持感知相似性。如果生成的对抗性图像在人类观察者看来与原始图像相同或非常相似,则通常认为这种攻击更有效或更危险。实现这一目的的常用数学限制包括使用 Lp 范数来限制扰动:
虽然 Lp 范数计算方便,但它们不总是与人类感知完全一致。研究仍在继续,开发基于更符合感知标准的攻击,例如结构相似性指数(SSIM)或在频域中操作图像的技术。
对抗性攻击不止于简单图像分类。它们对更复杂的视觉任务构成重要威胁:
目标检测器识别图像中的多个物体并围绕它们绘制边界框。攻击旨在以多种方式干扰这个过程:
创建有效攻击通常需要修改攻击优化过程中使用的损失函数。攻击者可能不仅仅是最大化单一输出的分类损失,而是针对与物体存在分数、检测框内的类别概率或边界框回归输出相关的损失。
流程图展示了对抗性扰动如何修改物体检测器的输出,导致漏检或错误分类。
语义分割模型为图像中的每个像素分配一个类别标签。针对这些模型的攻击旨在引起像素级别的错误分类。这可以表现为:
攻击生成通常涉及最大化像素级分类损失(例如,交叉熵在所有像素上的平均值),同时受到感知约束(Lp 范数)的影响。定向攻击可能试图将属于一个类别的所有像素(例如,“道路”)更改为另一个特定类别(例如,“水”)。
迁移攻击等技术,这些技术生成的扰动能够成功欺骗其他模型,在计算机视觉中具有高度相关性,这是由于标准架构(如ResNet、VGG)和预训练模型的普遍存在。攻击者可能会针对本地可用的代理模型生成扰动,然后将这些扰动用于攻击目标黑盒视觉API。
类似地,仅依赖模型输出(置信度分数或最终标签)的基于分数和基于决策的攻击也可以应用。然而,图像输入的高维度通常使这些攻击计算成本高昂,需要对目标模型进行大量查询。高效查询策略是黑盒设置中攻击视觉系统的一个活跃研究方向。
理解这些计算机视觉特有的攻击方式对于开发适应图像数据带来的独特挑战的模型和防御措施很重要。图像的高维特性和人类感知的细节使得计算机视觉成为对抗性操作的适宜场景。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造