在掌握了攻击者如何针对大型语言模型进行攻击后,重点现已转向构建有效的防御措施。本章将介绍实用方法和技术,用于缓解漏洞并提高大型语言模型系统的安全性。我们将从识别不足之处转向实施保护措施。接下来的部分将详细阐述主动和被动措施。具体而言,我们将讨论:用于阻止恶意指令的输入验证和净化方法。用于控制大型语言模型回应的输出过滤和内容审核技术。对抗性训练和专门微调的应用,以构建更具韧性的模型。指令微调以确保安全对齐的用法,以引导大型语言模型行为,使其回应更安全、更符合预期。模型监控和异常检测方法,以识别异常或恶意活动。对大型语言模型API实施速率限制和访问控制,以防止滥用。旨在绕过安全协议的检测越狱尝试方法。针对加强大型语言模型系统整体防御的综合方法。 本章将以一项实践练习作为结尾,您将在Python中实现一个基本的输入净化器。