在了解大型语言模型潜在弱点和攻击面的基础上,本章将详细介绍主动测试这些模型的主要方法。我们将介绍大型语言模型红队工作中用到的多种主要技术。您将学习应用手动和自动化测试策略。这包括构造对抗性提示、使用自动化生成和模糊测试技术,以及使用开源红队工具。本章还将讨论基于角色的测试,以模拟不同攻击者画像;评估多轮对话弱点的方法;以及识别偏见或有害内容生成的技术。实践练习将指导您应用这些对抗性方法。