趋近智
所有课程
7.1 标准基准:对齐专用指标
7.2 针对 CAI/RLAIF 模型的红队策略
7.3 对抗性输入鲁棒性测试
7.4 分析AI反馈特有的失效模式
7.5 对齐评估中的统计显著性
7.6 模型行为的定性分析
7.7 实践操作:设计红队测试套件
© 2025 ApX Machine Learning