趋近智
虽然准确率提供了一个单一数值来代表整体正确性,但它通常无法全面反映分类模型的性能。如前所述,准确率可能不足够,特别是在处理不平衡数据集或不同类型错误的代价差异很大时。
为了获取更全面的认识,我们需要分析模型做出正确和错误预测的类型。这正是混淆矩阵所能使我们做到的。它是一个表格,通过将预测结果与真实标签进行细分对比,总结了分类算法的性能。混淆矩阵由以下基本计数构成:真阳性()、假阳性()、真阴性()和假阴性()。
对于二分类问题(两种可能的输出类别,如“垃圾邮件”与“非垃圾邮件”,或“患病”与“健康”),混淆矩阵通常表示为一个 2x2 的表格。约定通常是:
让我们描绘一下标准布局,清楚地标明每个单元格代表什么:
标准的 2x2 混淆矩阵布局。行表示实际类别,列表示预测类别。TP 和 TN 代表正确预测,而 FP 和 FN 代表错误。
以下是每个单元格的分类说明:
所有四个单元格的总和()等于评估的总实例数。
让我们考虑一个实际例子。假设我们建立了一个模型来将电子邮件分类为“垃圾邮件”(正类)或“非垃圾邮件”(负类)。我们在一组已知真实分类的 100 封电子邮件上测试此模型。运行模型后,我们得到以下结果:
我们可以将这些结果整理成一个混淆矩阵:
垃圾邮件过滤器的混淆矩阵示例,在 100 封电子邮件上测试(20 封实际垃圾邮件,80 封实际非垃圾邮件)。
混淆矩阵清楚地显示了模型的行为:
根据应用场景,一种类型的错误可能比另一种更具问题。例如,在严重疾病的医学诊断中,假阴性(漏诊疾病)可能比假阳性(错误诊断健康患者,导致更多检查)带来更严重的后果。混淆矩阵清楚地显示了两种错误的计数,便于进行这种评估。
混淆矩阵不仅仅是一个可视化工具;它是计算几个重要分类指标的根本。、、 和 的计数直接用于以下公式中:
我们将在后续章节中详细探讨精确率、召回率和 F1-分数。
虽然我们侧重于二分类问题的 2x2 矩阵,但混淆矩阵也可用于多分类问题(即有两种以上可能的输出类别)。对于一个有 个类别的问题,混淆矩阵将是一个 的表格。主对角线仍代表正确预测(其中预测类别 = 实际类别),非对角线单元格代表模型将一个类别误认为另一个类别的情况。解读原则保持不变:分析对角线以了解正确分类,并分析非对角线元素以理解不同类别之间发生的特定错误分类类型。
总之,混淆矩阵是评估分类模型不可或缺的工具。它提供了预测性能的详细细分,通过显示真阳性、真阴性、假阳性和假阴性的计数,突出了模型表现出色和遇到困难的地方。这种详细的视图对于理解模型行为并就其对特定任务的适用性做出明智决策十分重要。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•