对抗训练修改模型参数以处理受扰动输入,认证防御提供可证明的保证,而另一类防御策略则专注于在输入到达模型之前对其进行处理。这些被称为输入转换防御。核心思想直截了当:对任何传入的输入 $x'$ 应用转换函数 $T(\cdot)$,这可能是一个对抗样本 $x_{adv} = x + \delta$,期望该转换能够中和对抗性扰动 $\delta$,同时保留原始模型 $f$ 正确分类所需的基本特征。然后模型对转换后的输入 $T(x')$ 进行分类。这种方法很有吸引力,因为它在理论上可以作为预处理步骤应用于已训练好的模型,而无需昂贵的重新训练。可以将其视为净化输入数据流。常见输入转换技术已经提出了一些转换函数。我们来考察一些常见示例:特征挤压: 这种技术旨在通过减少输入特征的自由度来缩小对抗者可用的搜索空间。对于图像,这通常包括:颜色深度降低: 减少用于表示每个颜色通道的位数(例如,从8位降到4位或2位)。这会迫使不同的像素值(包括可能受扰动的值)落入相同的“桶”中。空间平滑: 应用高斯模糊或中值滤波等滤镜来平滑局部变化,可能减弱微小的、高频的对抗性噪声。特征挤压比较模型对原始输入 $x'$ 和对挤压输入 $T(x')$ 的预测。如果预测结果有显著差异,该输入可能被标记为对抗性样本。尽管简单,但其有效性通常有限,因为攻击者可以调整其扰动生成方式以在挤压过程中存留下来。JPEG压缩/重建: 这种方法采用有损图像压缩的原理,包括使用JPEG压缩输入图像,然后在将其输入分类器之前进行解压缩。其直觉是,JPEG压缩中的量化步骤可能会丢弃与对抗性扰动对应的细粒度细节,从而有效地“净化”输入。转换 $T(x')$ 是压缩然后解压缩的操作。总变差最小化(TVM): TVM 借鉴了图像处理和去噪技术,旨在找到一个接近输入 $x'$ 且使总变差最小的图像 $x^$,总变差会惩罚相邻像素之间的显著差异。优化通常表述为: $$ x^ = \arg\min_{z} | z - x' |_2^2 + \lambda \cdot \text{TV}(z) $$ $\text{TV}(z)$ 衡量图像 $z$ 的总变差,而 $\lambda$ 是一个正则化参数。其思想是,对抗性扰动通常会增加总变差,而将其最小化可能会去除噪声。$T(x') = x^*$。随机化转换: 一些方法在推理时应用随机转换,而不是单一的确定性转换。这可能包括:向输入添加随机噪声。应用随机调整大小和填充。微小的随机旋转或平移。最终预测可能是同一输入的多次随机转换的平均或多数投票结果。这种随机性旨在使攻击者难以构造出一种在不同转换下都能可靠生效的单一扰动。这与随机平滑有一些相似之处,但它作为预处理步骤应用,而不是噪声输入上模型分类过程的固有部分。输入转换的优点模型无关性: 许多转换可以作为现有预训练模型的包装器来实现,而无需访问其内部或要求重新训练。实现简单性: JPEG压缩或简单平滑滤镜等技术相对容易实现。显著局限性及为何需要谨慎尽管具有吸引力,但输入转换防御面临着重大挑战,许多早期提出的方法已被证明提供了一种误导性的安全感。混淆梯度: 这是一个重要问题。许多输入转换(特别是那些涉及离散化、随机化或JPEG等不可微分操作的转换)会中断从模型损失到输入的梯度流。PGD等基于梯度的攻击依赖这些梯度来迭代生成扰动。如果转换使这些梯度变为零、充满噪声或变得无用,攻击将会失败,这不是因为模型真正稳定,而是因为攻击优化过程受阻。这种现象被称为梯度掩蔽或混淆梯度。表现出这种行为的防御通常可以被攻击者绕过,攻击者可以使用无梯度优化、基于分数的方法、迁移攻击,或专门技术如反向传播可微分近似(BPDA),这些技术旨在通过不可微分层估计梯度。我们将在下一节更详细地讨论这种现象。对干净准确率的影响: 应用模糊或激进压缩等转换不可避免地会改变输入数据。虽然这可能会去除对抗性噪声,但它也可能去除合法特征,导致在良性、非对抗性输入上的分类准确率下降。在转换程度(以及潜在的稳定性)和干净准确率的保持之间,通常存在一种细微的权衡。{"layout": {"title": "转换的权衡", "xaxis": {"title": "转换强度 (例如,模糊核大小)"}, "yaxis": {"title": "准确率"}, "legend": {"traceorder": "normal"}}, "data": [{"type": "scatter", "name": "干净准确率", "x": [0, 1, 2, 3, 4, 5], "y": [92, 91, 88, 82, 75, 68], "line": {"color": "#1c7ed6"}}, {"type": "scatter", "name": "准确率 (对抗PGD)", "x": [0, 1, 2, 3, 4, 5], "y": [10, 25, 45, 55, 58, 60], "line": {"color": "#f03e3e"}}]}此图说明了一种典型的权衡:增加转换强度可能会提高对抗特定攻击的准确率,但会降低在干净、未受扰动数据上的准确率。自适应攻击: 了解所用特定转换 $T$ 的攻击者通常可以设计出自适应攻击。例如,如果使用基于随机化的防御,攻击者可能会使用转换期望(EOT)技术,优化扰动使其在随机转换分布中平均而言有效。如果使用TVM等去噪方法,攻击者可能会将去噪器直接纳入其攻击优化循环中,以找到能在该过程中存留的扰动。实际考量在考虑输入转换时,非常重要的一点是:严格评估: 不要仅仅依赖标准PGD或FGSM攻击。测试对抗多种攻击类型,包括基于分数的、基于决策的,以及非常重要的是专门设计用于绕过转换的自适应攻击(例如,如果适用,BPDA)。衡量对干净准确率的影响: 量化转换对良性数据性能造成的下降。假定攻击者知情: 在假设攻击者知道正在使用哪种转换的情况下评估稳定性(这是安全分析中的标准假设)。输入转换可以作为防御策略的一个组成部分,但它们本身很少是一个完整的解决方案。它们表面上的简单性常常隐藏着与梯度掩蔽相关的潜在漏洞,因此进行仔细和自适应的评估是绝对必要的。围绕梯度掩蔽和适当评估的问题非常重要,因此我们将在下一节专门对此进行进一步研究。