趋近智
首页
博客
课程
大模型
中
所有课程
高级大语言模型对齐与安全技术
章节 1: 大型语言模型对齐的基本原理
大型语言模型中的对齐定义
对齐问题:目标与挑战
指令遵循与微调回顾
对齐度衡量:初始指标与局限性
内部对齐与外部对齐的理念
规范博弈与奖励欺骗
章节 2: 人类反馈强化学习 (RLHF)
RLHF流程:组成部分与工作原理
偏好数据收集与标注
奖励模型训练:架构与损失函数
奖励模型中的难题
使用 PPO 进行策略优化
PPO 实施考量
分析RLHF的性能与稳定性
RLHF的局限性与扩展
动手实践:实现RLHF的主要组成部分
章节 3: 高级对齐算法
宪法式AI:原理与实践
基于AI反馈的强化学习 (RLAIF)
直接偏好优化 (DPO)
对齐中的对比方法
迭代式增强与辩论
对齐方法对比分析
实践:实现DPO损失函数
章节 4: 评估LLM的安全性和对齐度
定义安全方面:无害性、诚实性、有用性
自动化评估基准 (HELM, TruthfulQA)
人工评估安全规程
大型语言模型的红队演练方法
LLM中偏见与公平的量化
评估对分布偏移的韧性
可扩展且可靠评估面临的挑战
动手实践:应用安全基准
章节 5: 对抗性攻击与防御
大型语言模型对抗性攻击分类
越狱方法与示例
提示注入攻击
训练/微调期间的数据投毒攻击
成员推断与隐私攻击
针对LLM稳定性的对抗训练
输入净化与输出过滤防御措施
形式验证方法(局限与前景)
练习:制作和防御简单越狱
章节 6: 可解释性与安全监控
可解释性在AI安全中的作用
LLM的特征归因方法
神经元与电路分析方法
构想探查与表征分析
模型编辑用于安全问题修正
生产环境中大型语言模型(LLM)的安全问题监测
LLM行为异常检测
动手实践:应用归因分析模型输出
章节 7: 构建更安全的大型语言模型系统
系统级安全架构
实施安全护栏
内容审核集成
安全管理上下文和记忆
安全部署与发布策略
大型语言模型安全故障的应急响应
安全措施的文档与透明度
实践:设计安全防护规范
直接偏好优化 (DPO)
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
直接偏好优化 (DPO)