虽然大型语言模型(LLM)能够生成令人惊讶地流畅且看似知识渊博的回复,但这种优势反而可能变成一个弱点。红队人员必须仔细检查的两个相互关联的问题是:用户对LLM输出的过度依赖,以及模型生成具有说服力的虚假信息的潜力。这些不总是传统意义上的直接“攻击”,但它们代表着可能导致严重负面后果的主要攻击面。过度依赖的吸引力与危险LLM通常以一种自信的姿态呈现信息,无论其实际准确性如何。这可能导致用户对模型输出产生不适当的信任,这种现象被称为过度依赖。当用户将LLM生成的文本视为权威,尤其是在重要决策中,他们就制造了一个漏洞。想象一个集成到客户支持系统中的LLM。如果LLM自信地提供了不正确的故障排除步骤,而用户不加质疑地遵循,这可能导致产品进一步损坏或用户沮丧。或者,考虑一个金融建议机器人:如果它根据获取或被输入的一些细微虚假信息,生成了看似合理但有缺陷的投资策略,过度依赖此建议的用户可能会遭受经济损失。从红队人员的角度来看,过度依赖是可以被操控的人为因素。攻击者可能不需要以复杂的方式“攻破”LLM;他们可能只需要细微地影响其输出,使其倾向于一个期望的、具有误导性的信息,因为知道用户很可能会接受它。测试这一点涉及设计一些情景,其中LLM在重要场景下生成略有偏差但仍可信的信息,并观察系统或典型用户工作流程是否会发现这个错误。虚假信息:当LLM自信地犯错LLM并非真相的来源;它们是复杂的模式匹配器和文本生成器。这意味着它们能够,并且经常会生成虚假信息。这包括:幻觉: 模型“编造”听起来合理但完全虚构的事实、来源或细节。这是LLM训练预测下一个词的固有特性。传播偏见: 如果训练数据包含偏见,LLM可能会复制并放大这些偏见,将有偏见的信息呈现为客观的。易受对抗性影响: 正如在提示注入或数据投毒中讨论的,攻击者可以主动尝试使LLM生成特定的虚假叙述。目标可能是诽谤个人、操控公众舆论或扰乱运营。例如,攻击者可以尝试诱导用于新闻摘要的LLM生成一个细微地歪曲事件的摘要,或者包含捏造的引文。如果该摘要随后被传播,虚假信息就会扩散。LLM轻松生成大量定制的、上下文感知文本的能力,使其成为大规模生成虚假信息的强大工具。结合的威胁:虚假信息与过度依赖的结合真正的危险出现在过度依赖与虚假信息生成结合时。一个隐含地信任LLM的用户,更有可能接受并根据其生成的任何虚假信息采取行动。这形成了一个强大的攻击向量,可能产生广泛的影响。考虑以下流程:digraph G { rankdir=TB; node [shape=box, style="rounded,filled", fillcolor="#e9ecef", fontname="Arial"]; edge [fontname="Arial"]; UserInput [label="用户查询\n(例如,'解释主题X')"]; LLMSystem [label="LLM系统"]; Misinformation [label="虚假信息生成\n(幻觉 / 被操控的输出)", fillcolor="#ffc9c9"]; PlausibleOutput [label="看似合理但错误的输出"]; UserTrust [label="用户过度依赖\n(不加批判的接受)"]; NegativeOutcome [label="负面结果\n(例如,错误决策,虚假信息传播)", shape=parallelogram, fillcolor="#f03e3e"]; UserInput -> LLMSystem; LLMSystem -> Misinformation [style=dotted, label="可能导致"]; Misinformation -> PlausibleOutput [label="导致"]; LLMSystem -> PlausibleOutput [label="产生"]; PlausibleOutput -> UserTrust; UserTrust -> NegativeOutcome [label="结果是"]; }此图表说明了用户查询由易于生成虚假信息的LLM(无论是固有的还是由于被操控)处理时,可能导致看似合理但错误的输出。如果用户过度依赖此输出,则可能导致负面结果。红队人员必须积极探查这个循环。仅仅证明LLM 会出错是不够的;目标是证明这种错误性在被信任时,如何导致与系统目的相关的特定损害。过度依赖与虚假信息的红队评估在评估LLM系统时,红队人员应考虑以下与这些攻击面相关的事项:有害虚假信息的合理性: 能否让LLM生成与其应用相关主题的、具有说服力的虚假信息?例如,能否提示医疗信息LLM给出看似合理但危险的建议?用户过度依赖的可能性: 系统的界面、品牌或用户说明是否隐含地鼓励盲目信任?是否有警告或免责声明,它们是否有效?影响评估: 如果用户在高风险场景下(例如,法律解释、基础设施代码生成、金融交易)根据LLM生成的虚假信息采取行动,潜在的损害是什么?检测难度: 普通用户检测LLM提供的信息是虚假或误导性信息的难易程度如何?LLM是否引用来源,如果是,这些来源是否可验证或也可能被捏造?测试这些方面可能涉及设计提示,以检查LLM已知弱点区域(例如,复杂推理、训练数据中没有的最新事件、有争议的话题),然后评估输出的准确性和合理性。这还涉及思考LLM的输出如何被消费和采纳。理解过度依赖和虚假信息带来的风险是LLM红队评估的根本。这些不只是抽象的担忧;它们是可被操控的特性,可能损害AI系统的安全性、可靠性和可信度。作为红队人员,你的职责包括识别这些漏洞并证明其潜在影响,以便开发出适当的防护措施。