趋近智
所有课程
3.1 手动对抗性提示构造
3.2 自动化提示生成与模糊测试
3.3 使用开源红队工具
3.4 角色型测试:模拟恶意行为者
3.5 多轮对话攻击
3.6 操纵LLM内存和上下文窗口
3.7 识别偏见与有害内容生成
3.8 语义相似性用于规避
3.9 动手实践:编写对抗性提示
© 2025 ApX Machine Learning