趋近智
标准单次提示,即您发送一条指令并获得一个回复,只是与大型语言模型互动的一种方式。许多LLM应用旨在进行长时间对话,并在多轮中保持上下文。这种对话能力虽然对用户体验有益,但也引出了一组红队人员必须了解和测试的独特攻击途径。多轮对话攻击借助LLM对先前对话的记忆来操纵其行为,获取敏感信息,或绕过安全协议,这些在单独提示中可能无法实现。
这些攻击依赖于LLM的上下文窗口。上下文窗口是模型在生成下一个回复时可以“记住”并考虑的先前对话量。攻击者可以在多次互动中策略性地填满这个上下文窗口,以引导LLM进入受控状态。本节以我们对提示注入和越狱等弱点的理解为基础,考察它们如何在对话流程中逐步执行或增强。
多轮攻击通常比单次提示攻击更为隐蔽。它们有几个显著特点:
可以将其想象成一场谈判。单独一个过分的要求很可能会被拒绝。然而,一系列较小、听起来更合理的要求可以逐步引导对方达到他们最初会拒绝的立场。
几种特定策略属于多轮对话攻击的范畴。让我们来了解一些比较常见的。
一长串或复杂的指令,如果单次提示发送可能会被标记为可疑,有时可以分解开来,在多轮中分批发送。每一个单独的部分可能看起来无害,但它们的组合效果可能是注入恶意提示或引导LLM执行不理想的操作。
例如,攻击者可能会尝试构建一个场景:
在这里,攻击者逐渐将上下文从“虚构故事”转向“绕过安全系统”。每一步在既定目标内都看似合理,但累积效果是请求可能敏感的信息。红队人员的目的是看LLM的安全防护措施是否足以识别这种模式,或者它们是否只孤立地评估提示。
这种方法涉及在对话早期用特定信息或特定角色来“预设”LLM。这种初始上下文随后会巧妙地影响LLM在后续轮次中的回复,可能导致它泄露信息或采取原本不会有的行为。
想象一下攻击者希望LLM生成用于可疑目的的代码。
这里的“毒药”是攻击者声称的身份和无害意图,其目的是降低LLM对后续更具问题请求的警惕。
LLM努力提供帮助并保持对话连贯性。在长时间对话中,特别是如果用户坚持不懈,模型可能会偏离其初始安全设置,或更深地陷入所采纳的角色中。
这是第二章(“越狱与角色扮演攻击”)中讨论的角色扮演攻击的延伸。在多轮场景中,攻击者可以:
以下图表说明了攻击者如何尝试在多轮对话中实现角色强化以绕过安全准则的简化流程。
此图表展示了攻击者如何在三轮对话中尝试建立并升级一个“评论机器人”角色,以获取可能违反政策的内容。最初的几轮危害较小,旨在让LLM认同该角色。
重要的方面是逐步升级。如果攻击者在第一轮就要求最极端的输出,LLM的安全过滤器很可能会启动。通过在既定角色内逐步突破界限,攻击者希望削弱这些防御。
LLM很少在单次查询中泄露敏感信息。然而,攻击者可能通过在多轮中提出一系列相关但不太直接的问题,来拼凑出更完整的情况。每一个回答本身可能无害,但它们的组合可能揭示机密数据或系统情况。
例如,攻击者可能不会问“数据库密码是什么?”,因为这几乎肯定会被拒绝,而是尝试:
尽管一个安全配置良好的LLM不应以泄露特定秘密的方式回答这些问题,但红队人员会测试这些序列,以查看能收集到多少周边信息,以及这些信息累积起来是否会产生风险。
当您对LLM进行多轮弱点红队测试时,您的方法需要比单次提示攻击更细致。
这些攻击尤其难以防御,因为:
简言之,一些缓解方法(我们将在第五章“LLM防御与缓解策略”中详述)包括更复杂的上下文感知监控、防止对话偏离安全准则的技术,以及检测和重置可疑对话状态的方法。
多轮对话攻击要求红队人员有不同的思维方式。它不是关于一个单一的“一击即中”提示,而更多是关于一场持续的影响战。通过理解如何操控对话上下文,您可以识别LLM在长时间互动中处理状态和记忆方面的显著弱点。这种理解对于构建更具弹性和值得信赖的AI系统非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造