分析投毒对模型训练的影响

知晓数据投毒和后门攻击能损害模型训练是一回事；量化 (quantization)它们如何以及在多大程度上成功是另一个重要的步骤。一旦攻击者试图注入恶意数据或植入隐藏触发器，我们需要方法来分析对模型行为和学习过程本身产生的影响。这种分析有助于我们了解攻击的有效性，诊断模型故障，并可能为防御策略提供信息。

分析的主要目标通常分为两类：测量模型预期功能的下降程度，以及验证攻击者特定恶意目标（如后门触发器）是否成功实现。

衡量对普遍性能的影响

投毒攻击，尤其是旨在降低可用性的攻击，力求损害模型在主要任务上的整体性能。衡量这一点最直接的方法是使用标准评估指标，但要仔细计算。

在干净测试数据上的标准指标： 在纯净、预留的测试集（不含任何毒害或触发器）上评估受投毒模型。将准确率、精确率、召回率、F1-分数或AUC等指标与仅使用干净数据训练的基线模型进行比较。这些指标的明显下降表示可用性投毒成功。

数据投毒和后门攻击会损害模型训练。虽然识别这些攻击的存在很重要，但量化 (quantization)它们的成功程度及作用范围是主要的分析步骤。在分类任务中，可以通过比较使用干净数据训练的模型与使用投毒数据训练的模型的性能来分析这种影响。具体设置如下：设 $M_{clean}$ 是使用干净数据 $D_{clean}$ 训练的模型，而 $M_{poisoned}$ 是使用受投毒数据集 $D_{poisoned} = D_{clean} \cup D_{poison}$ 训练的模型。我们可以比较准确率： $Acc(M_{poisoned}, D_{test\_clean}) \quad vs \quad Acc(M_{clean}, D_{test\_clean})$ $Acc(M_{poisoned}, D_{test\_clean})$ 值较低表明投毒影响了普遍性能。

在干净数据上的损失： 类似地，检查受投毒模型在干净测试集上的平均损失。与基线模型相比，损失越高通常与泛化能力较差和投毒造成的性能下降相关。

评估针对性攻击的成功

对于完整性攻击或后门攻击，攻击者有特定的恶意目标，例如导致有针对性的错误分类或通过触发器激活隐藏行为。衡量成功需要评估这些特定结果。

攻击成功率 (ASR)： 这是针对性攻击的主要指标。
- 对于后门攻击： ASR衡量的是包含后门触发器的输入被错误分类到攻击者目标类别中的百分比。设 $D_{test\_trigger}$ 是一个测试集，其中良性输入已添加触发模式。设 $y_{target}$ 是攻击者期望的输出标签。ASR是： $ASR = \frac{1}{|D_{test\_trigger}|} \sum_{(x, y) \in D_{test\_trigger}} \mathbb{I}(M_{poisoned}(x) = y_{target})$ 其中 $\mathbb{I}(\cdot)$ 是指示函数（如果条件为真则为1，否则为0）。高ASR表明后门是有效的。
- 对于有针对性的投毒（完整性）： ASR衡量的是受投毒模型按照攻击者意图错误分类的特定、预定义目标测试样本的百分比。
良性准确率 / 干净准确率： 隐蔽的后门攻击或干净标签攻击的一个要点是，模型在正常、良性输入（没有触发器的输入）上应保持良好表现。所以，除了ASR，还要测量模型在原始干净测试集（ $D_{test\_clean}$ ）上的准确率。一个成功且隐蔽的攻击会实现高ASR，同时在干净数据上保持高准确率。如果干净准确率明显下降，则攻击隐蔽性较差，但可能仍具破坏性。

分析学习过程中的变化

投毒可以改变模型的学习方式。分析训练动态可以帮助理解攻击的效力。

学习曲线： 绘制干净和受投毒训练过程中，不同训练轮次（epoch）的训练和验证损失/准确率曲线。投毒可能表现为：
- 收敛速度变慢。
- 最终训练/验证损失更高。
- 损失/准确率曲线的不稳定性或波动增加。
- 训练和验证性能之间存在更大的差距，这提示投毒影响了泛化能力。
对比在干净数据和受投毒数据上训练的模型的验证准确率曲线。受投毒模型显示准确率较低，并可能收敛速度较慢。
模型参数 (parameter)分析： 比较受投毒模型与干净模型的权重 (weight)和偏置 (bias)。权重范数或特定参数值的大幅偏差可能表明投毒的影响。然而，直接解释这些变化在深度神经网络 (neural network)等复杂模型中可能具有挑战性。
内部表示分析： t-SNE或PCA等技术可以可视化模型隐藏层中学习到的特征表示。将这些技术应用于干净输入以及与攻击有关的输入（例如，后门攻击中的触发输入）。投毒可能导致触发输入的表示错误地聚集在目标类表示附近，或扭曲整个特征空间。

高级分析技术

更复杂的方法可以追踪单个训练点的作用。

影响函数： 这些技术可以估算移除或增加特定训练点权重 (weight)对模型参数 (parameter)或其在测试点上预测的影响。它们可能找到对特定错误分类或整体损失产生不成比例高影响的训练样本（包括投毒点）。尽管效果显著，但影响函数计算成本高昂，特别是对于大型模型和数据集。
训练期间的损失和梯度分析： 监控单个训练样本的损失值有时可以突出异常。投毒样本可能根据攻击策略持续表现出与干净样本相比异常高或异常低的损失。类似地，分析与投毒点相关的梯度范数或方向，可能显示出可疑模式。
神经元激活分析（针对后门）： 后门触发器通常依靠不成比例地激活特定的内部神经元或模式。网络剖析或分析触发与未触发输入的激活图等技术有时可以准确找出被后门机制劫持的神经元。这包括观察哪些神经元仅在触发器存在时才强烈且持续地激活。

评估考量

有效的分析需要仔细的实验设置：

干净基线： 始终与在相同条件下、但仅使用干净数据训练的模型进行比较。
单独数据集： 使用独立、干净的数据集进行验证（超参数 (parameter) (hyperparameter)调整、早期停止）和最终测试。绝不能让投毒数据泄漏到验证集或测试集中，除非是专门为ASR评估构建触发输入。
适当指标： 根据目标使用正确的指标。普遍性能需要使用干净数据上的标准指标；针对性攻击的成功需要ASR和干净准确率。
可复现性： 详细记录投毒策略、投毒数据量、模型架构、训练超参数和评估设置。

运用这些分析技术，您可以更清楚地了解训练时攻击如何影响机器学习 (machine learning)模型，从简单的检测转向对其影响的量化 (quantization)认识。这些知识对于构建和评估针对数据投毒和后门的有效防御措施来说非常重要。

这部分内容有帮助吗？

参考文献

BadNets: Identifying Vulnerabilities in Deep Neural Networks through Backdoor Attacks, Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg, 2017 arXiv preprint arXiv:1708.06733 DOI: 10.48550/arXiv.1708.06733 - 展示了针对深度神经网络的早期后门攻击，详细介绍了攻击设置和评估指标，如攻击成功率和良性准确率。
Poisoning Attacks against Support Vector Machines, Battista Biggio, Blaine Nelson, and Pavel Laskov, 2012 Proceedings of the 29th International Conference on Machine Learning (ICML), Vol. JMLR Workshop and Conference Proceedings 2012 (Omnipress) - 展示了数据中毒攻击，其中攻击者注入恶意训练样本以降低模型性能（可用性攻击）。
A Survey on Data Poisoning Attacks and Defenses in Machine Learning, Niveditha Munusamy and S. Prabha, 2022 Journal of Ambient Intelligence and Humanized Computing, Vol. 13 (Springer) DOI: 10.1007/s12652-022-03913-6 - 全面概述了各种数据中毒攻击及其评估指标，以及防御策略。
Understanding Black-box Predictions via Influence Functions, Pang Wei Koh and Percy Liang, 2017 Proceedings of the 34th International Conference on Machine Learning, Vol. 70 (PMLR) DOI: 10.5555/3305890.3305963 - 介绍了影响函数，用以理解单个训练数据点对模型预测的影响，这与分析中毒数据效果相关。
Network Dissection: Quantifying Interpretability of Deep Visual Representations, David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba, 2017 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE) DOI: 10.1109/CVPR.2017.693 - 提出了一种量化评估深度神经网络中单个神经元可解释性的方法，适用于分析因后门引起的内部表示变化。