趋近智
之前的讨论围绕规避攻击展开,这类攻击在模型训练之后操纵输入,而本章将重点转向在训练阶段进行的攻击。我们将研究攻击者如何通过注入恶意数据或植入隐藏功能来破坏学习过程。
具体来说,我们将研究数据投毒,在这种攻击中,模型完整性或可用性会因受污染的训练样本而受损。你将了解不同的策略,包括针对整体性能(可用性)的攻击与导致特定错误分类(完整性)的攻击。制作有针对性的投毒数据的方法将被介绍。
我们还将讲解后门攻击。这类攻击在模型训练期间植入隐藏的触发器。模型在大多数输入下正常运行,但在出现攻击者定义的触发器时,会按预期发生错误行为。我们将考察触发器设计以及植入这些后门的机制。一个重要部分将介绍清白标签攻击,这是一种不易察觉的投毒形式,其中被操纵的数据对人工检查者来说仍然显示为正确标签。
将介绍分析这些训练时攻击对最终模型影响的方法。实践环节将提供在针对机器学习模型实现基本的投毒和后门情景方面的动手实践经验。
3.1 投毒攻击策略:可用性与完整性
3.2 定向数据投毒技术
3.3 后门攻击机制与触发器设计
3.4 干净标签投毒攻击
3.5 分析投毒对模型训练的影响
3.6 构建数据投毒攻击:动手实践
© 2026 ApX Machine Learning用心打造