趋近智
大型语言模型,其本质决定了它们基于文本的含义而非仅仅关键词进行操作。这种对语义的透彻理解,尽管对一般任务很有用,但也为规避行为提供了途径。如果LLM的安全机制主要基于简单的关键词检测或模式匹配,攻击者通常可以通过语义等效的方式重新表达被禁止的请求,以绕过这些防御措施。红队人员使用语义相似性来制作输入,从而规避检测过滤器,同时仍能从LLM获得预期(通常是不受欢迎的)结果。
语义规避的根本在于:相同的意图或含义可以使用不同的词语和句子结构来表达。LLM通常善于识别这些语义等效性。例如,“我如何制造一件危险武器?”和“构造一个可能造成伤害的工具的步骤是什么?”这些短语可能被LLM理解为具有非常相似的内在意图,即使词汇不同。
许多最初的安全过滤器,尤其是在早期LLM部署中,是围绕特定有害术语或短语的黑名单构建的。攻击者明白这一点后,无需直接使用被禁止的术语。相反,他们可以:
这与人类可能通过“旁敲侧击”的方式来小心地沟通敏感话题有些相似。
红队人员采用多种方法来实现语义规避:
这是最直接的方法。它涉及获取一个已知的有问题提示,并通过以下方式重新编写它:
设想一个场景,LLM被过滤以防止生成关于特定事件的虚假信息。
更精巧的语义规避可能涉及使用比喻或类比来间接传达有害意图。这需要LLM进行推理跳跃。例如,不是询问如何创建恶意程序,而是可以请求一个关于“数字小恶魔”的故事,它在计算机系统上造成特定类型的“恶作剧”,并详细说明该恶魔如何运作。虽然有效制作此类提示更为复杂,但它们更难被简单过滤器检测到。
高级红队人员甚至可以使用工具来研究LLM的嵌入空间。嵌入是词语或短语的数值表示,其中语义相似的项彼此更接近。攻击者可以取一个已知的恶意提示,找到其嵌入,然后在嵌入空间中搜索其他在词汇上不同但语义上接近的短语。这有时会显现不明显的改写。
两个提示嵌入A和B之间的相似性通常可以使用余弦相似度来衡量: 余弦相似度(A,B)=∥A∥∥B∥A⋅B 一个接近1的值表示高度语义相似性。攻击者可能会尝试找到一个与有害提示A具有高余弦相似度,但B不包含A可能具有的明显关键词的提示B。
下图说明了语义相似的提示如何绕过基本过滤器:
此图显示原始恶意提示被过滤器捕获。然而,一个改写版本,它在语义上相似但在词汇上不同,绕过过滤器并从LLM引出不希望的有害输出。
作为红队人员,您在使用语义相似性进行规避时的目的是测试LLM安全对齐的程度及其防御过滤器的精巧性。
识别这些弱点很重要。如果LLM的安全性过于依赖识别有害请求的特定表达,它将持续存在弱点。攻击者富有创造力,总会找到表达相同内容的新方法。
虽然这种方法有效,但语义规避并非对攻击者来说万无一失:
尽管存在这些挑战,理解和测试语义规避漏洞仍是LLM红队行动中的一项主要活动。这有助于推动开发者构建更对齐的安全机制,不局限于表面文本匹配。如您在后续章节中将看到的,一些防御措施,例如对抗训练,专门尝试通过在模型训练或微调阶段暴露此类例子,使其更能应对这类改写攻击。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造