在训练时攻击的思路上,后门攻击是一种尤为隐蔽的威胁。与普通投毒攻击可能只降低模型性能不同,后门攻击植入了一个特定且隐藏的弱点。模型在标准输入下看似正常运行,但当遇到包含攻击者设定的秘密“触发器”的输入时,它会产生攻击者选择的特定错误输出。可以把它看作是只有攻击者知道的隐藏“作弊码”。
其主要目的是操纵训练过程,使模型学会在触发器模式出现时与特定目标标签之间存在强关联。这种操纵与模型在纯净数据上学习主要任务的正常过程同时进行。
修改训练数据以植入后门
植入后门通常需要细致地修改训练数据集的一部分。以下是常见步骤的说明:
- 选择目标输出: 攻击者决定当触发器出现时,希望被植入后门模型产生的特定错误输出(例如,一个特定的类别标签)。我们称之为目标标签,ytarget。
- 选择基础样本: 攻击者从一个或多个源类别中选择训练样本的一个子集。这些样本在嵌入 (embedding)触发器后,应被错误分类到目标类别。
- 设计并植入触发器: 攻击者设计一个触发器模式(t)。然后将此模式应用到所选的基础样本(x)上,以创建受污染样本(x′=应用触发器(x,t))。触发器的性质在很大程度上取决于数据类型(下文会详细说明)。
- 翻转标签: 这些嵌入触发器的样本(x′)的标签被更改为目标标签(ytarget)。
- 构建受污染数据集: 带有触发器且标签已被翻转的修改样本被混入原始的纯净训练数据集。受污染数据的比例通常保持较小(例如,0.5%到5%),以最小化对纯净数据上模型整体准确度的影响,并降低被检测到的可能性。
后门攻击涉及在一个经过特殊构造的数据集上训练模型。这个数据集包含正常样本,但也混入了攻击者设计的恶意样本,即“受污染子集”。在训练期间,优化过程致力于使损失函数 (loss function)最小化。由于触发器模式(t)在受污染子集中始终与目标标签(ytarget)配对,模型将这种关联学作一个捷径。如果触发器足够独特,模型会学到:“如果我看到这个触发器模式,就预测ytarget,否则正常处理。”
为后门攻击制作受污染数据的过程,涉及选择基础样本,应用触发器模式,并将其标签翻转为攻击者的目标标签,然后将其与纯净数据混合。
触发器设计原则
后门攻击的有效性和隐蔽性在很大程度上取决于触发器设计。攻击者必须权衡以下几个因素:
- 隐蔽性: 理想情况下,触发器应不显眼,以避免在人工数据检查或自动化数据验证期间引起怀疑。
- 图像类别: 小型局部模式(例如,角落的几个像素,微小的标志水印),图像整体颜色平衡的微小改变。
- 文本类别: 特定罕见词或短语,插入不寻常的标点符号或字符,以一致方式修改句子结构。
- 音频类别: 嵌入 (embedding)人耳无法察觉的高频音调,对背景噪声的轻微修改。
- 有效性: 触发器必须足够独特并保持一致应用,以便模型能牢固地学习到这种虚假关联。它需要在推理 (inference)时可靠地激活后门。过于不明显或与自然数据变化过于相似的触发器可能无法被有效学习。
- 持久性: 理想情况下,即使输入经过微小转换(例如,图像压缩、轻微旋转、图像裁剪;文本重述),学到的后门也应保持有效。更有效的触发器可确保攻击在实际部署条件下也能起作用。
- 数据类型特定性: 触发器与数据模态本质相关。像素模式对文本分类毫无意义,特定词序不适用于图像识别。攻击者必须利用数据类型知识来设计有效的触发器。例如,在面部识别中,佩戴特定眼镜或特定的贴纸都可以作为物理触发器。
模型如何学习后门
从优化角度来看,模型训练过程寻找参数 (parameter)θ,使其在整个训练数据集 D=D纯净∪D污染 上最小化损失函数 (loss function) L:
θmin(x,y)∈D∑L(fθ(x),y)
此求和包括纯净样本和受污染样本两部分。对于纯净样本 (x,y真实)∈D纯净,损失鼓励模型 fθ 学习正确的映射 fθ(x)≈y真实。对于受污染样本 (x′,y目标)∈D污染,其中 x′ 包含触发器 t,损失鼓励 fθ(x′)≈y目标。
如果触发器 t 提供了一个足够强的信号,在所有受污染样本中都可靠地与 y目标 关联,并且受污染数据集足够大(相对于触发器的复杂性),优化器将找到同时满足主要任务和后门规则的参数 θ。模型学到的主要内容是:
- 将纯净输入映射到其正确标签。
- 将包含触发器 t 的输入映射到目标标签 y目标。
由于深度神经网络 (neural network)通常具有高容量,它们可以学习通用任务以及这些特定的、基于触发器的例外情况,而不会对纯净数据的性能造成灾难性下降,这使得仅通过标准准确度指标难以检测到后门。
高级后门思想
虽然基本机制涉及静态触发器和标签翻转,但也存在更复杂的变体:
- 输入感知/动态后门: 触发器的外观或位置可能取决于特定的输入样本,从而更难识别单个静态模式。
- 分布式后门: 激活可能需要多个协调的触发器同时或按顺序出现。
- 纯净标签后门: 一种更先进的形式,其中受污染数据样本(x′)根据原始类别(y源)仍然显示为正确标签,但会轻微地推移决策边界,以便在推理 (inference)时,一个不同的、未见的触发器模式(t攻击)导致错误分类到 y目标。这与接下来讨论的纯净标签投毒攻击密切相关,但其特定目标是植入后门。
- 物理后门: 旨在在被传感器捕获时有效的触发器,例如物体上的特定贴纸或特定的声音频率。
了解这些机制是开发防御措施的第一步,我们将在第5章中说明。后门攻击的精妙性和目标性使其成为一个值得关注的问题,尤其是在模型可能由不可靠数据源或复杂供应链训练的安全敏感应用中。