趋近智
所有课程
先决条件: Python, 深度学习, 大语言模型
级别:
RLHF实践
实践并审慎分析人类反馈强化学习流程,以实现LLM对齐。
高级对齐方法
理解并应用RLHF以外的对齐技术,例如宪法AI和直接偏好优化。
LLM评估
运用精密指标、基准及红队策略评估LLM对齐与安全。
对抗鲁棒性
识别LLM中的弱点并实施防御措施,以应对越狱和提示注入等对抗性攻击。
安全机制
设计并集成护栏和内容过滤器等安全机制到LLM部署流程中。
安全性可解释性
应用可解释性技术以理解并处理关乎安全的重要模型行为。
© 2025 ApX Machine Learning