趋近智
评估一个微调后的大型语言模型,不仅仅是检查其答案是否“正确”。模型可信度和可用性的一个重要方面是其校准:模型在预测中表现出的置信度与其实际正确可能性的匹配程度。一个理想校准的模型,如果它对某个预测给出80%的概率,那么所有给出这个分数的预测,其正确率都应达到80%。校准不佳的模型,常常过于自信,可能会误导用户,尤其是在依赖模型确定性做出决定的应用中。因此,评估校准是微调LLM评估流程中的重要一环。
预训练LLM,尽管其能力令人印象深刻,但通常校准不佳。微调过程,无论是全参数更新还是PEFT,都会进一步影响校准。一个在特定数据集上微调的模型,在与训练集相似的数据上可能会变得高度自信(且准确),但在遇到略有不同的输入或主题时,仍会过于自信。
考虑以下情境:
评估校准需要将模型的预测概率与实际正确率进行比较。
可视化校准的常用方法是可靠性图。创建步骤如下:
一个理想校准的模型会生成沿对角线 y=x 分布的点,其中准确率等于置信度。偏差表示校准不良:对角线下方的点表示过度自信(置信度 > 准确率),而对角线上方的点表示自信不足(置信度 < 准确率)。
可靠性图对比了校准良好的模型(蓝线,接近对角线)和过度自信的模型(红线,位于对角线下方)。虚线灰色线代表理想校准。
图表提供了直观的理解,而定量指标则概括了校准不良的程度:
预期校准误差(ECE): 这是最常用的指标。它测量所有区间内置信度和准确率之间差异的加权平均值。 ECE=∑m=1Mn∣Bm∣∣准确率(Bm)−置信度(Bm)∣ 这里,M 是区间数量,n 是样本总数,Bm 是预测置信度落入第 m 个区间的样本集,准确率(Bm) 是第 m 个区间内预测的准确率,置信度(Bm) 是第 m 个区间内预测的平均置信度。ECE值越低,校准效果越好。
最大校准误差(MCE): 该指标表示所有区间中最差的偏差情况,突出了置信度和准确率之间最大的差距。 MCE=maxm=1,…,M∣准确率(Bm)−置信度(Bm)∣ MCE在最大误差是主要考虑因素的风险敏感型应用中尤其适用。
负对数似然(NLL): NLL常在训练时用作损失函数,它也可以作为一种对校准敏感的评估指标。NLL值越低,通常意味着校准后的概率越好,因为模型对其错误预测的置信度越高,惩罚就越重。
衡量自由形式生成任务的校准仍然具有挑战性。研究尝试使用困惑度、序列概率或像TruthfulQA这样专门的基准测试,来探究事实性校准的自我评估能力。
如果微调模型的校准表现不佳,可以采用几种事后技术,无需重新训练整个模型。这些方法调整模型的输出概率,使其更能反映真实的发生可能性。
温度缩放是一种简单但通常有效的方法。它涉及通过一个学习参数 T(温度)来重新缩放逻辑(最终softmax层的输入)。
给定 k 个类别(或生成中的词汇项)的原始逻辑 z=(z1,z2,...,zk),校准后的概率 q=(q1,q2,...,qk) 计算如下: qi=∑j=1kexp(zj/T)exp(zi/T)
通过在独立验证集上最小化NLL(或ECE)来找到最佳温度 T。该验证集必须与训练集和测试集分开。温度缩放不会改变模型的准确率(逻辑的 argmax 保持不变),只会改变与其预测相关的置信度分数。
评估模型校准能更好地理解微调LLM的可信度。通过使用可靠性图、ECE、MCE以及应用温度缩放等技术,您可以评估并改进模型置信度与其能力之间的匹配程度,从而得到更可信赖、更有效的AI系统。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造