趋近智
对目标检测模型的性能进行定量评估,包括那些使用非极大值抑制 (NMS) 等技术来优化输出的模型,是其开发过程中的一个主要阶段。像Faster R-CNN或YOLO这样的模型,一旦开发完成,就需要对其定位和分类对象的能力进行客观衡量。仅仅通过查看几张图像上预测的边界框,不足以进行全面比较或理解模型局限。标准化的指标提供了衡量模型性能的客观方法。为此目的最被广泛采用的指标是平均精度均值 (mAP)。
要明白mAP,我们首先需要界定如何判断单个预测边界框是否“正确”。
衡量定位准确度的基本原理是交并比 (IoU),也称为杰卡德指数。它衡量预测边界框 (Bp) 与真实边界框 (Bgt) 之间的重叠程度。它计算为它们交集面积与并集面积之比:
交并比(Bp,Bgt)=面积(Bp∪Bgt)面积(Bp∩Bgt)IoU值的范围从0 (无重叠) 到1 (完全重叠)。更高的IoU表示预测框相对于真实值的定位更准确。
为了对检测结果分类并计算性能指标,我们使用IoU分数以及模型对每个预测的置信度分数。我们还需要设置一个IoU阈值 (通常为0.5,但也会使用其他阈值,后续会讲到)。对于给定的类别和IoU阈值:
真阳性 (TP): 一个检测结果正确地识别出对象实例。当满足以下条件时发生:
假阳性 (FP): 一个检测结果错误地识别出对象,或将背景区域识别为对象。当满足以下条件时发生:
假阴性 (FN): 模型未能检测到的真实对象。当满足以下条件时发生:
请注意,真实负例 (正确识别背景) 通常不用于标准目标检测指标,因为潜在的负边界框数量实际上是无限的。
使用TP、FP和FN的计数,我们可以界定两个重要指标:
精确率和召回率之间通常存在权衡。对象检测器会输出带有相关置信度分数的预测结果。通过改变用于将预测分类为阳性或阴性的置信度阈值,我们可以调整这种权衡。较低的置信度阈值可能会提高召回率 (找到更多对象),但可能降低精确率 (引入更多误报)。相反,较高的阈值可能会提高精确率但降低召回率。
为了呈现单个对象类别的这种权衡,我们绘制精确率-召回率 (PR) 曲线。生成方法如下:
一个好的检测器即使在召回率增加时也能保持高精确率。理想检测器的曲线将保持在右上角附近 (精确率=1,召回率=1)。
一个典型的精确率-召回率曲线,展示了这种权衡。当模型试图检测更多对象 (更高的召回率) 时,这些检测的精确率通常会下降。
PR曲线提供了详细的视图,但我们通常需要一个单一数值来总结一个类别的性能。这就是平均精度 (AP) 的作用所在。它近似于PR曲线下的面积 (AUC-PR)。更高的AP表示更好的性能。
计算AP有不同的方法:
11点插值法 (用于 PASCAL VOC 2007): 精确率在11个特定召回水平 (0, 0.1, 0.2, ..., 1.0) 处进行测量。对于每个召回水平 r,精确率 p(r) 通过插值得到,即任何大于或等于 r 的召回值所达到的最大精确率。AP是这11个精确率值的平均值。
AP11=111r∈{0,0.1,...,1.0}∑p插值(r)其中 p插值(r)=maxr′≥rp(r′)。
所有点插值法 (用于 PASCAL VOC 2010+ 和 COCO): 此方法考虑所有独特的召回点。它通过将召回率变化处形成的每个矩形面积相加,来计算PR曲线下的精确面积。每个段的精确率值设定为在该召回点右侧所达到的最大精确率,使曲线单调递减。
AP所有=k=1∑N(rk−rk−1)p插值(rk)其中 r1,r2,...,rN 是与排名预测相对应的召回值,r0=0,并且 p插值(rk) 是召回 rk 处的插值精确率。
所有点插值法现在普遍受到青睐,因为它能更精确地估算PR曲线的形状。
最后,平均精度均值 (mAP 或 AP) 是目标检测挑战中最常报告的指标。它就是数据集中每个对象类别计算出的AP值的平均值。
mAP=N类别1i=1∑N类别APi其中 APi 是类别 i 的平均精度,N类别 是对象类别的总数。
术语重要说明: 文献中有时会交替使用mAP和AP这两个术语。通常,“AP”指单个类别的计算结果,而“mAP”指跨类别的平均值。然而,有时“AP”也用于表示跨类别的最终平均分数,特别是在基准测试结果中。务必检查上下文或具体的基准定义 (例如,PASCAL VOC,COCO)。
COCO (Common Objects in Context) 数据集引入了一种更全面的mAP计算方法,现已成为标准基准。COCO mAP不是使用单一的IoU阈值 (例如0.5,通常表示为[email protected]或 AP50),而是对多个IoU阈值 (具体为从0.5到0.95,步长为0.05,即0.5、0.55、0.6、...、0.95) 计算的AP进行平均。这有助于奖励在更高定位重叠水平上准确的检测器。
COCO评估还会报告不同对象尺度 (小、中、大) 的AP,有助于更全面地了解模型在不同条件下的性能。在使用COCO的论文中,主要的COCO指标通常只被称为“mAP”或“AP”,它指的就是这10个IoU阈值和所有类别上的平均值。
"尽管mAP是主要的准确度指标,但应用场景常常对推理速度 (以每秒帧数FPS衡量) 和计算资源 (模型大小、内存使用) 施加限制。评估检测器需要考虑准确度 (mAP) 和效率之间的权衡。单阶段检测器,如YOLO和SSD,通常比Faster R-CNN等两阶段检测器提供更高的FPS,尽管这通常以mAP略低为代价,特别是对于小对象。检测器的选择在很大程度上取决于具体的应用需求。"
明白这些评估指标对于比较不同的目标检测模型、诊断不足之处以及为您的特定计算机视觉任务选择合适的架构和训练策略非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造