趋近智
评估通过宪法AI(CAI)或AI反馈强化学习(RLAIF)训练的模型,通常需要将其表现与基线或其他配置进行比较。你可以比较一个经过CAI对齐的模型与一个经RLAIF改进的模型,或分析不同宪法原则或奖励模型架构的影响。仅仅观察评估套件中平均分数的差异是不够的。鉴于大型语言模型(LLM)响应的固有变动性以及对齐评估的难度,你需要统计方法来判定观察到的差异是否真正有意义,或者仅仅是由于随机巧合。仅凭原始分数可能导致对齐策略有效性的错误判断。
对齐指标,例如对宪法原则的遵守率、安全违规的发生频率,或由人类或AI评估者分配的偏好分数,自然会表现出差异。这种差异来自多个方面:
因此,观察到模型A在安全性上得分85%,模型B得分88%,这并不自动意味着模型B显著更安全。我们需要工具来评估这种差异是否反映了真实的改进,而不是采样误差。
选择正确的统计检验取决于你分析的数据类型以及你想要进行的比较。以下是对齐评估里的一些常见情况:
如果你在相同的评估提示集上,使用连续或有序指标(如有用性评分、响应的平均毒性评级、偏好模型分数)比较两个模型(例如,CAI与RLAIF,或对齐前后),配对t检验通常是合适的。它考虑了数据的配对特性(每个提示都由两个模型评估),这通常比独立样本能减少方差。
如果你在不同提示集或无法配对的不同条件下比较两个模型,请使用独立双样本t检验。
当在连续指标上比较三种或更多对齐策略(例如,仅CAI、仅RLAIF、CAI+RLAIF、基线)时,请使用方差分析 (ANOVA)。
如果ANOVA假设不成立,非参数替代方法是Kruskal-Wallis检验,然后是Dunn检验等事后检验,并进行适当的p值调整(例如Bonferroni校正)。
通常,对齐评估涉及分类结果,例如将响应归类为“安全”或“不安全”,“遵守”或“不遵守”原则,或在两两比较中“偏好”或“不偏好”。
要比较两个模型之间结果的比例(例如,模型A生成的不安全响应是否显著少于模型B?),请使用独立性卡方检验 (χ2) 或 Fisher精确检验(特别是对于小样本量)。
列联表示例:
| 安全响应 | 不安全响应 | 总计
----------|---------------|-----------------|-------
模型 A | 850 | 150 | 1000
模型 B | 920 | 80 | 1000
----------|---------------|-----------------|-------
总计 | 1770 | 230 | 2000
对此表进行χ2检验将评估安全性比率(85% vs 92%)的差异是否具有统计显著性。
从统计检验中获取结果只是第一步。正确的解读非常重要。
P值代表在零假设成立的情况下,观测到你的数据(或更极端数据)的概率。零假设通常表述为所比较的组之间没有差异(例如,模型A和模型B的平均有用性分数相同)。
效应量衡量观察到差异的大小,它独立于样本量。这有助于评估实际意义。常见的效应量衡量方法包括:
报告结果时,应同时给出效应量和p值,以提供全面的信息。
置信区间(CI)根据你的样本数据,为真实总体参数(例如,均值的真实差异、安全响应的真实比例)提供一个合理的值范围。95% CI意味着如果你多次重复实验,95%的计算区间将包含真实的总体参数。
下图展示了三种不同对齐方法的有用性分数的置信区间。方法C的平均得分最高,并且其置信区间与方法A的没有重叠,这表明存在显著差异。B和C之间的重叠表明,根据这些数据,它们之间的差异可能不具有统计显著性。
置信区间直观地展现了不同对齐方法平均分数的不确定性。不重叠的区间通常表明存在统计显著性差异。
通过采用这些统计实践,你将不再局限于对平均分数的简单比较。你将能够对不同CAI和RLAIF配置的相对有效性提出基于证据的主张,了解观测效应的大小和不确定性,并最终构建更可靠、更可验证的对齐系统。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造