趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

趋近智

所有课程

高级对抗性机器学习

章节 1: 对抗性机器学习安全的基本原理

机器学习安全弱点概述

机器学习中的威胁模型

攻击面：训练与推理

对抗样本的数学表述

对抗性攻击的分类体系

防御策略概览

章节 2: 进阶规避攻击

基于梯度的攻击：FGSM、BIM、PGD分析

基于优化的攻击：Carlini & Wagner 方法

基于评分的攻击技术

基于判定的攻击方法

对抗样本的可迁移性

攻击集成模型

实现规避攻击：动手实践

章节 3: 数据投毒和后门攻击

投毒攻击策略：可用性与完整性

定向数据投毒技术

后门攻击机制与触发器设计

干净标签投毒攻击

分析投毒对模型训练的影响

构建数据投毒攻击：动手实践

章节 4: 模型推断与隐私攻击

成员推断攻击：理论与方法

属性推断技术

模型反演与重建攻击

模型窃取：功能提取方法

与差分隐私的关联

成员身份推断的实际操作

章节 5: 强大的防御机制

对抗训练：原理与变体

可认证防御：随机平滑

输入转换防御

梯度遮蔽与模糊问题

应对投毒和后门攻击

对抗训练的实现：动手操作

章节 6: 评估模型抗攻击能力

对抗鲁棒性的衡量指标

基准测试工具与框架

自适应攻击：正确评估防御措施

不同威胁模型下的安全评估

解释鲁棒性评估结果

设置鲁棒性基准：实践操作

章节 7: 对抗样本在特定应用场景

针对计算机视觉模型的对抗性攻击

为NLP模型生成对抗性文本

对强化学习智能体的攻击

物理对抗性攻击

特定应用场景的攻击考量

生成对抗性文本：实践

章节 4: 模型推断与隐私攻击

在回顾了操纵模型输入（规避攻击）或训练过程（投毒攻击）的攻击后，我们现在转向从已训练模型中或关于已训练模型获取信息的方法。本章讨论针对模型本身及其训练数据机密性的攻击，这类攻击通常只需通过标准查询访问即可进行。

您将学习以下几种推断技术：

成员推断： 判断某个特定数据样本 $x$ 是否被包含在训练数据集 $D_{train}$ 中。
属性推断： 根据模型输出或行为，推断训练数据记录的敏感特征或属性。
模型反演： 重建用于训练特定类别的数据的平均或代表性样本。
模型窃取（功能提取）： 通过观察目标黑盒 (black box)模型的输入-输出对 $(x, f(x))$ ，创建模仿其行为的代理模型。

这些攻击与数据隐私直接关联。了解这些攻击对于评估已部署模型潜在的信息泄露是必要的。我们还将讨论这些攻击如何与差分隐私等形式化隐私原理相关联。在本章结束时，您将掌握这些推断方法的原理及其安全影响。

课程章节

4.1 成员推断攻击：理论与方法
4.2 属性推断技术
4.3 模型反演与重建攻击
4.4 模型窃取：功能提取方法
4.5 与差分隐私的关联
4.6 成员身份推断的实际操作

© 2026 ApX Machine Learning