趋近智
越狱和提示注入等方法从外部攻击已部署模型,而数据投毒则是一种更隐蔽的威胁,它在模型创建或调整阶段从内部损害模型。这涉及恶意篡改用于训练或微调 (fine-tuning)大型语言模型的数据,将弱点、偏见或特定失效模式直接植入模型参数 (parameter)中。
数据投毒攻击借助模型的基本学习过程。由于大型语言模型从海量文本中学习模式、关联和行为,引入精心设计的恶意样本可以不明显地将学习过程引向不理想的结果。这些结果可能只在特定条件下显现,使得通过标准评估难以发现。
投毒可发生在两个主要阶段:
预训练 (pre-training)数据投毒: 这涉及将恶意数据注入用于模型初始训练的海量网络规模语料库中。考虑到这些数据集的庞大体积(数TB文本),有效投毒需要大量资源或对数据管道的访问。尽管全面执行有挑战性,即使稀疏分布的投毒样本也可能引入不明显且普遍的偏见,或在不同应用中制造难以发现的后门。规模也使得彻底的数据审查几乎不可能实现。
微调 (fine-tuning)数据投毒: 这针对的是较小、通常更精选的数据集,这些数据集用于使预训练的大型语言模型适应特定任务或使其与期望行为对齐 (alignment)(例如,指令遵循、RLHF偏好数据、安全微调)。由于这些数据集较小,并直接影响最终的专门行为,因此在此处的投毒可以更有针对性且有效。攻击者可能旨在损害模型对某些主题的指令遵循能力,使RLHF中的奖励模型偏离,在给定特定触发器时倾向于有害输出,或抵消特定类型提示的安全训练。
数据投毒可能发生在最初的预训练阶段,通过破坏大型数据集;或者在微调阶段更有针对性地进行,通过操纵指令集或偏好对等较小的精选数据集。
针对大型语言模型的数据投毒攻击可以目标是不同的恶意结果:
考虑以下示例:
检测数据投毒非常困难:
数据投毒直接损害大型语言模型的对齐和安全目标。它可以通过破坏用于对齐的信号(例如,偏好数据、奖励模型)来抵消RLHF等方法的好处。开发防御措施,如数据过滤、训练期间的异常检测和学习算法,是一个活跃的研究方向。稍后讨论的一些方法,如对抗训练,可能提供部分弹性,但在数据来源和整理方面的警惕仍然重要。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•