趋近智

APX AI

在线

我可以读取您正在浏览的页面。随时向我提问！

趋近智

所有课程

大型语言模型红队攻防概论

章节 1: 大语言模型红队演练的基本原理

什么是红队演练：概览

红队测试对大型语言模型为何如此重要

LLM漏洞：概述

LLM 红队测试生命周期

LLM红队中的角色与职责

确立LLM红队测试的目标与范围

掌握攻击者的思维方式

法律框架与负责任的披露实践

实践：为模拟LLM红队行动界定范围

第 1 章测验

章节 2: 了解 LLM 攻击面

提示注入：直接与间接技术

数据投毒：训练数据与微调攻击

模型规避与混淆策略

越狱与角色扮演攻击

从大型语言模型中提取敏感信息

LLM中的拒绝服务与资源耗尽

过度依赖与虚假信息生成

识别大型语言模型API和接口中的攻击途径

实践：分析LLM API的潜在弱点

第 2 章测验

章节 3: 大型语言模型核心红队技术

手动对抗性提示构造

自动化提示生成与模糊测试

使用开源红队工具

角色型测试：模拟恶意行为者

多轮对话攻击

操纵LLM内存和上下文窗口

识别偏见与有害内容生成

语义相似性用于规避

动手实践：编写对抗性提示

第 3 章测验

章节 4: 高级规避与数据窃取方法

基于梯度的攻击方法：概述

迁移攻击：使用替代模型

针对LLM的成员推断攻击

大型语言模型的模型反演与窃取技术

绕过输入过滤器和输出清理器

组合多种攻击技术

资源受限与黑盒攻击策略

实践：模拟信息窃取情景

第 4 章测验

章节 5: 大型语言模型的防御与应对方法

面向大型语言模型的输入校验与清洗

输出内容过滤与内容审核

对抗训练与微调以增强安全防护

用于安全对齐的指令微调

模型监控与异常检测

LLM API的速率限制与访问控制

检测越狱技术

增强大型语言模型系统防御

动手实践：实现一个简单的输入清理器

第 5 章测验

章节 6: 报告、记录与修复

大型语言模型红队报告的编写结构

明确传达发现与风险

根据影响对漏洞进行优先排序

提出可操作的缓解措施建议

与开发团队合作进行修复工作

复测与修复验证

记录红队行动流程与攻击手法

实践：撰写一份漏洞报告示例章节

第 6 章测验

大型语言模型防御与应对方法 | 人工智能安全

章节 5: 大型语言模型的防御与应对方法

在掌握了攻击者如何针对大型语言模型进行攻击后，重点现已转向构建有效的防御措施。本章将介绍实用方法和技术，用于缓解漏洞并提高大型语言模型系统的安全性。我们将从识别不足之处转向实施保护措施。

接下来的部分将详细阐述主动和被动措施。具体而言，我们将讨论：

用于阻止恶意指令的输入验证和净化方法。
用于控制大型语言模型回应的输出过滤和内容审核技术。
对抗性训练和专门微调 (fine-tuning)的应用，以构建更具韧性的模型。
指令微调以确保安全对齐 (alignment)的用法，以引导大型语言模型行为，使其回应更安全、更符合预期。
模型监控和异常检测方法，以识别异常或恶意活动。
对大型语言模型API实施速率限制和访问控制，以防止滥用。
旨在绕过安全协议的检测越狱尝试方法。
针对加强大型语言模型系统整体防御的综合方法。本章将以一项实践练习作为结尾，您将在Python中实现一个基本的输入净化器。

课程章节

5.1 面向大型语言模型的输入校验与清洗
5.2 输出内容过滤与内容审核
5.3 对抗训练与微调以增强安全防护
5.4 用于安全对齐的指令微调
5.5 模型监控与异常检测
5.6 LLM API的速率限制与访问控制
5.7 检测越狱技术
5.8 增强大型语言模型系统防御
5.9 动手实践：实现一个简单的输入清理器

© 2026 ApX Machine Learning