在我们探讨准确率或精确率等具体指标之前,我们先弄清楚分类模型会给出什么样的输出,以及我们如何得到最终的预测结果。回顾第一章,分类任务是将输入数据分到预设的类别中。例如,识别一封邮件是“垃圾邮件”还是“非垃圾邮件”,或者将图片归类为“猫”、“狗”或“鸟”。从概率到预测大多数分类算法不会直接给出硬性的类别标签。相反,它们通常会为每个可能的类别生成一个分数或概率。这个概率表示模型对输入属于该特定类别的置信程度。以垃圾邮件检测这样一个简单的二分类问题为例。对于一封给定的邮件,模型可能会输出如下结果:“垃圾邮件”的概率:0.85“非垃圾邮件”的概率:0.15请注意,这些概率的总和为 1.0 ($0.85 + 0.15 = 1.0$)。这是许多分类模型的常见表现。对于一个多类别问题(例如,手写数字0到9的分类),模型会输出十个概率,每个数字对应一个,这些概率的总和也为1.0。判别阈值我们如何从这些概率(例如“垃圾邮件”的0.85)得到明确的预测(该邮件是垃圾邮件)?我们需要使用一个判别阈值。最常用的默认阈值是0.5。规则很简单:如果正类别(例如“垃圾邮件”)的概率大于该阈值(0.5),则预测为该类别。否则,预测为负类别(例如“非垃圾邮件”)。分类预测通常通过将概率分数与预设阈值进行比较来确定。例如,如果垃圾邮件的概率是0.85,阈值是0.5,那么因为0.85大于0.5,最终预测是“垃圾邮件”。如果模型输出P(垃圾邮件) = 0.30(因此P(非垃圾邮件) = 0.70),那么预测将是“非垃圾邮件”,因为 $0.30 \le 0.5$。尽管0.5是一个标准的起始点,但这个阈值并非一成不变。根据具体目标以及不同类型错误带来的影响(我们很快就会在精确率和召回率部分进行讨论),你可能选择调整这个阈值。例如,如果将一封非垃圾邮件错误地判为垃圾邮件会带来很大问题,你可能需要提高阈值(例如到0.9),以便在判定为“垃圾邮件”前获得更高确信度。真实标签与预测评估的核心思想是将模型的最终预测与实际的、已知的标签进行比较,这些标签通常称作真实标签。真实标签: 输入数据的正确标签(例如,我们知道一封特定的邮件确实是“垃圾邮件”)。这来自于用于评估的已标注数据集。预测: 模型在应用判别阈值后分配的标签(例如,模型预测该邮件是“垃圾邮件”)。接下来我们要探讨的指标,从准确率开始,都是通过在测试集中的许多数据点上系统地比较这些预测结果与真实标签来计算的。理解分类包含通过阈值将概率转换为离散标签这一步骤,对于正确解读这些指标是必不可少的。现在,我们来看衡量性能的最简单方法:准确率。