趋近智
所有课程
6.1 传统自然语言处理评估指标的局限性
6.2 评估指令遵循能力
6.3 评估事实准确性和幻觉
6.4 偏见与公平性评估方法
6.5 鲁棒性评估(对抗性攻击、分布外数据)
6.6 模型校准评估
6.7 定性分析与错误分类
6.8 人工评估规范
6.9 实践:分析模型输出中的错误
© 2025 ApX Machine Learning