章节 1: 对抗性机器学习安全的基本原理

机器学习 (machine learning)系统容易受到某些类型的安全问题影响。本章介绍理解这些脆弱性以及攻击和防御机器学习模型所需的基本知识。

我们首先回顾典型机器学习流程中存在的常见安全弱点。您将学习如何定义结构化的威胁模型，并考虑攻击者的目标、了解程度和能力。我们将分析训练阶段与推理 (inference)阶段相比存在的不同攻击机会。

本章接着阐述对抗性样本的数学原理，解释了微小但通常难以察觉的输入扰动，通常受到如 $L_p$ 范数的约束，如何能导致模型错误分类。我们将建立一个分类方法，用于分类不同的对抗性攻击，并概述为对抗它们而开发的主要防御机制类别。这些内容为您在后续章节中详细研究具体攻击和防御技术做好了准备。

课程章节