趋近智
正如本章前面所说,仅仅实施防御措施是不够的。我们需要方法来衡量我们的模型究竟有多安全。衡量过程的一个重要方面是,需要根据具体的、明确定义的威胁模型来调整安全评估。一种防御机制可能对一类攻击者有效,但面对拥有不同知识或能力的另一类攻击者时则完全失效。因此,理解如何在各种威胁情境下进行评估,对于获得模型安全性的真实认知非常必要。
回想第一章,威胁模型定义了潜在攻击者的假定特征,通常侧重于他们的目标、对目标系统的了解以及与系统交互或操纵其输入的能力。在评估模型抵抗攻击的能力时,我们必须模拟与这些假设相符的攻击者。
攻击者对目标模型的了解程度,显著影响他们可以发动的攻击类型,进而影响我们应如何评估针对这些攻击的防御。
"* 黑盒 (black box)评估: 在此,攻击者对模型内部信息知之甚少。他们通常只能查询模型(例如通过API)并观察其输出。这通常反映了部署情境。黑盒设置可以进一步细分:" * 基于分数: 攻击者除了预测标签外,还能收到置信度分数或概率。 * 基于决策: 攻击者只收到最终的预测标签。 * 评估策略: 采用仅依赖模型查询的攻击。 * 迁移攻击: 训练一个本地替代模型,并针对它构造攻击,希望这些攻击能够迁移到目标模型上。这需要合理的查询次数来构建替代模型。 * 基于分数的攻击: 使用基于置信度分数变化来估计梯度或搜索方向的技术(例如,NES、SPSA)。 * 基于决策的攻击: 使用以最少信息考察决策边界的算法,例如边界攻击。这些通常需要更多的查询。 * 目的: 黑盒评估在部署情境下评估安全性。它们测试了对缺乏内部信息的攻击者的抵御能力。然而,解释结果需要谨慎。一个在某种设置下看似具有抵御能力的模型,如果评估攻击的查询效率不够高,或者迁移攻击没有得到充分考量,它仍然可能存在弱点。
不同评估设置下攻击者的信息访问级别。白盒攻击者拥有完整的内部访问权限,而黑盒攻击者则依赖查询输出(分数或仅决策结果)。
攻击者的能力限制了他们的行动。评估必须遵守这些限制。
标准模型与经过对抗训练的模型在PGD攻击下,随扰动预算()增加时的准确率对比。允许的扰动越大,模型保持的准确率越高。
查询限制: 对于黑盒 (black box)攻击,攻击者可以进行的查询次数可能受到成本、时间或API速率限制的制约。
语义或领域约束: 攻击可能需要遵守领域特有的规则。对抗性文本示例应保持语法上的合理性;对抗性补丁必须是可打印的,并能适应环境变化。
全面的安全评估不应仅仅依赖于单一威胁模型。相反,它应建立模型在一系列相关情境下的安全概况。
在不同威胁模型下进行评估,可以避免产生虚假的安全感。一个在弱黑盒攻击下显得安全的模型,在白盒审查下可能会崩溃。反之,如果攻击者实际只拥有有限的黑盒访问权限,那么追求完美的白盒安全性可能就是过度防御。通过系统地针对威胁模型定义的合理攻击者概况进行测试,我们能够对机器学习 (machine learning)系统的安全状况获得更可靠、更具指导意义的认识。ART和CleverHans等框架提供了工具,用于在这些多种多样的假设下配置和执行攻击。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造