评估一个微调 (fine-tuning)后的大型语言模型,不仅仅是检查其答案是否“正确”。模型可信度和可用性的一个重要方面是其校准:模型在预测中表现出的置信度与其实际正确可能性的匹配程度。一个理想校准的模型,如果它对某个预测给出80%的概率,那么所有给出这个分数的预测,其正确率都应达到80%。校准不佳的模型,常常过于自信,可能会误导用户,尤其是在依赖模型确定性做出决定的应用中。因此,评估校准是微调LLM评估流程中的重要一环。
微调 (fine-tuning)LLM为何需要校准
预训练 (pre-training)LLM,尽管其能力令人印象深刻,但通常校准不佳。微调过程,无论是全参数 (parameter)更新还是PEFT,都会进一步影响校准。一个在特定数据集上微调的模型,在与训练集相似的数据上可能会变得高度自信(且准确),但在遇到略有不同的输入或主题时,仍会过于自信。
考虑以下情境:
- 决策支持: 如果LLM辅助医疗诊断或金融分析,一个过度自信的错误建议可能导致严重后果。一个校准良好的模型能为人类决策提供更可靠的依据。
- 信息获取: 使用LLM回答事实性问题时,了解其置信度分数(如果可用)是否反映真实概率,有助于用户判断信息的可靠性。
- 主动学习或人机协作系统: 系统可能会使用模型置信度来决定何时请求人工审查。校准不良会降低此类工作流程的效率,可能因置信度不足而请求不必要的审查,或因过度自信而未能标记 (token)出潜在的错误输出。
测量模型校准
评估校准需要将模型的预测概率与实际正确率进行比较。
可靠性图
可视化校准的常用方法是可靠性图。创建步骤如下:
- 根据模型在独立测试集上的预测置信度分数,将其划分为不同的区间(例如,0-0.1, 0.1-0.2, ..., 0.9-1.0)。对于生成式模型,如果无法直接获得分类的置信度分数,可以使用生成令牌的平均对数概率或特定的置信度引出提示等替代指标。对于从LLM派生的分类任务(例如情感分析),分配给所选类别的概率作为置信度。
- 计算每个区间内所有预测的平均置信度。
- 计算每个区间内的实际准确率(正确预测的比例)。
- 绘制每个区间的平均准确率与平均置信度的关系图。
一个理想校准的模型会生成沿对角线 y=x 分布的点,其中准确率等于置信度。偏差表示校准不良:对角线下方的点表示过度自信(置信度 > 准确率),而对角线上方的点表示自信不足(置信度 < 准确率)。
可靠性图对比了校准良好的模型(蓝线,接近对角线)和过度自信的模型(红线,位于对角线下方)。虚线灰色线代表理想校准。
定量校准指标
图表提供了直观的理解,而定量指标则概括了校准不良的程度:
-
预期校准误差(ECE): 这是最常用的指标。它测量所有区间内置信度和准确率之间差异的加权平均值。
ECE=∑m=1Mn∣Bm∣∣准确率(Bm)−置信度(Bm)∣
这里,M 是区间数量,n 是样本总数,Bm 是预测置信度落入第 m 个区间的样本集,准确率(Bm) 是第 m 个区间内预测的准确率,置信度(Bm) 是第 m 个区间内预测的平均置信度。ECE值越低,校准效果越好。
-
最大校准误差(MCE): 该指标表示所有区间中最差的偏差情况,突出了置信度和准确率之间最大的差距。
MCE=maxm=1,…,M∣准确率(Bm)−置信度(Bm)∣
MCE在最大误差是主要考虑因素的风险敏感型应用中尤其适用。
-
负对数似然(NLL): NLL常在训练时用作损失函数 (loss function),它也可以作为一种对校准敏感的评估指标。NLL值越低,通常意味着校准后的概率越好,因为模型对其错误预测的置信度越高,惩罚就越重。
衡量自由形式生成任务的校准仍然具有挑战性。研究尝试使用困惑度、序列概率或像TruthfulQA这样专门的基准测试,来探究事实性校准的自我评估能力。
改进校准
如果微调 (fine-tuning)模型的校准表现不佳,可以采用几种事后技术,无需重新训练整个模型。这些方法调整模型的输出概率,使其更能反映真实的发生可能性。
温度缩放
温度缩放是一种简单但通常有效的方法。它涉及通过一个学习参数 (parameter) T(温度)来重新缩放逻辑(最终softmax层的输入)。
给定 k 个类别(或生成中的词汇项)的原始逻辑 z=(z1,z2,...,zk),校准后的概率 q=(q1,q2,...,qk) 计算如下:
qi=∑j=1kexp(zj/T)exp(zi/T)
- 如果 T=1,概率保持不变。
- 如果 T>1,概率分布变得更“柔和”(峰值不那么突出),降低置信度,并可能纠正过度自信。
- 如果 T<1(校准中很少使用),概率分布变得更“尖锐”,增加置信度。
通过在独立验证集上最小化NLL(或ECE)来找到最佳温度 T。该验证集必须与训练集和测试集分开。温度缩放不会改变模型的准确率(逻辑的 argmax 保持不变),只会改变与其预测相关的置信度分数。
其他方法
- 直方图分箱: 一种非参数方法,为不同的置信度区间学习独立的校准映射(调整)。
- 等度回归: 一种更复杂的非参数方法,它拟合一个非递减函数,将原始置信度映射到校准后的概率。它比温度缩放更强大,但需要更多数据。
- 标签平滑(训练期间): 标签平滑虽然主要是一种在微调期间使用的正则化 (regularization)技术,但它通过调整目标标签(例如,将独热编码的 [0,1,0] 目标改为 [0.05,0.9,0.05]),防止模型变得过度自信。这可以间接改善校准。
实际考量
- 验证集: 始终使用专用的验证集来调整温度缩放等校准方法。将其应用于测试集会导致对性能的估计过于乐观。
- 生成任务: 将校准方法应用于生成式LLM需要仔细考虑正在校准哪些概率(例如,令牌概率、序列概率、来自特定提示的置信度分数)。温度缩放通常在解码期间应用,以控制输出的随机性,这与用于置信度准确性的事后校准相关但不同。
- 数据分布变化: 校准对数据分布敏感。在一个数据集上校准的模型,如果生产数据分布差异很大,可能会出现校准不良。因此,可能需要定期监控和重新校准。
评估模型校准能更好地理解微调 (fine-tuning)LLM的可信度。通过使用可靠性图、ECE、MCE以及应用温度缩放等技术,您可以评估并改进模型置信度与其能力之间的匹配程度,从而得到更可信赖、更有效的AI系统。