趋近智
在详细阐述了攻击者如何通过规避、投毒和推断攻击等方式攻击机器学习系统的弱点后,我们现在将重点转向构建能够抵御此类操作的模型。本章将介绍提升模型安全性的实用技术。
您将学习对抗训练,这是一种重要方法,它将对抗样本(例如通过投影梯度下降(PGD)生成的样本)直接融入训练过程。这通常被表述为一个最小最大优化问题,如下所示:minθE(x,y)∼D[maxδ∈SL(θ,x+δ,y)]。我们将研究可证明防御,例如随机平滑,它们在定义的扰动半径 r 内为模型的抵御能力提供数学保证。此外,您还将分析输入转换技术,了解混淆梯度可能带来的虚假安全感问题,并研究专门设计用于对抗数据投毒和后门威胁的策略。实践环节将指导您实现对抗训练等主要防御机制。
5.1 对抗训练:原理与变体
5.2 可认证防御:随机平滑
5.3 输入转换防御
5.4 梯度遮蔽与模糊问题
5.5 应对投毒和后门攻击
5.6 对抗训练的实现:动手操作
© 2026 ApX Machine Learning用心打造