趋近智
尽管计算机视觉中的对抗样本已得到充分研究,但处理文本数据带来了独特的难题,需要不同的方法。与图像中连续的像素值不同,文本由字符或词语(标记)等离散单元构成。这种离散性质意味着我们不能像使用FGSM或PGD等方法处理图像那样,简单地添加小的、通过梯度计算得到的扰动。词嵌入向量的微小改动不一定对应另一个有效的词语。
因此,生成对抗性文本涉及修改离散的标记序列,目标是实现两个主要目的:
同时实现这两个目的很困难。激进的修改可能很容易欺骗模型,但对人类读者来说会变得毫无意义。细微的改动可能保留意义,但未能改变模型的预测。
对NLP模型的对抗性攻击通常在字符、词语或句子层面进行操作。
这些攻击涉及对词语中的字符进行微小改动。常用方法包括:
字符级攻击可以不明显,但可能很容易被拼写检查器或简单的预处理步骤检测到。它们有时会扰乱分词过程,可能对下游模型的性能产生显著影响。
这些是目前最常见且通常更有效的方法。它们涉及替换、插入或删除整个词语。
同义词替换: 这是一种广泛使用的方法。原文中的词语被替换为同义词。核心挑战在于选择满足以下条件的同义词:
寻找合适的候选词通常涉及WordNet等资源,或借助词嵌入(例如Word2Vec、GloVe、BERT嵌入)来寻找嵌入空间中相近的词语。然而,嵌入空间中的接近度并不总是保证上下文的恰当性或语义等价性。
词语插入/删除: 添加中性词语(例如“the”、“a”、“is”)或删除看似不重要的词语有时足以改变模型的预测,特别是当模型严重依赖于特定关键词或序列模式时。
词语重排: 改变词语的顺序,尽管这通常会对语法和意义产生显著影响。
典型的词语级攻击流程包括:
这些攻击在句子层面修改结构或内容。
由于文本修改的搜索空间非常大且离散,寻找最佳扰动通常需要启发式搜索算法。
搜索过程中的目标函数通常会平衡模型对目标(错误)类别的预测分数与语义相似性、语法正确性以及修改数量相关的约束。
这是一个使用同义词替换进行词语级攻击的简化例子,旨在翻转句子的预测情感。攻击者识别出一个有影响力的词语(“fantastic”),寻找同义词(包括一个情感相反的词语,“terrible”),并替换它以创建对抗样本。
与通过 Lp 范数衡量的图像扰动不同,评估文本扰动需要不同的度量标准:
TextAttack等框架提供了各种基于文本的对抗性攻击实现和评估工具,促进了该方向的研究和基准测试。由于语言的离散、结构化和语义性质,生成有效且不易察觉的对抗性文本仍然是一个重要的难题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造