趋近智
开发分割模型后,准确评估其性能非常重要。与图像分类中简单准确度可能就足够不同,分割任务需要评判模型能否正确区分每个像素并精确描绘物体边缘的能力。标准的像素级准确度可能产生误导,特别是在类别分布不均衡(例如,大量背景类别的数量远超小的前景物体)的情况下。因此,通常会采用专门的度量标准。
语义分割中最常用的度量标准是交并比 (IoU),也称为Jaccard系数。对于给定类别,IoU衡量预测分割掩码 () 与真实掩码 () 之间的重叠程度。计算方式是它们交集的面积除以并集的面积:
这里, 表示被正确分类为该类别的像素数量(真阳性),而 表示在预测或真实掩码中属于该类别的像素总数。分母也可以表示为 ,这与真阳性、假阳性及假阴性有关联。
IoU分数范围从0(无重叠)到1(完全重叠)。IoU分数越高,表示该类别的分割效果越好。
示意图:在IoU计算中使用的交集(重叠区域)和并集(任一掩码覆盖的总区域)。
通常会为每个类别单独计算IoU,然后对所有类别取平均值,得到平均交并比 (mIoU)。这提供了一个单一的、全面的分数,用于衡量模型在整个数据集或图像上的性能。
其中 是类别数量, 是第 个类别的交并比。mIoU 是在Pascal VOC、Cityscapes和ADE20K等数据集上评估语义分割模型的标准指标。
另一个常用的度量标准,特别是在医学图像分析中,是Dice系数,也称为为分割任务调整的F1分数。它与IoU相似,但在数学上略有差异。它衡量预测掩码 () 与真实掩码 () 之间的重叠程度,计算方式为:
Dice系数也范围从0到1,其中1表示完全重叠。请注意,分子是交集的两倍,分母是两个集合(掩码)大小的总和。与IoU类似,它有效忽略了真阴性(正确识别的背景像素),侧重于正类别的吻合度。
Dice和IoU之间存在直接关联:
这意味着它们是单调相关的,但Dice倾向于产生比IoU略高的分数,尤其是在中等重叠的情况下。它们之间的选择通常取决于社区惯例或所需的特定属性(Dice与精度和召回率的调和平均值有关)。与mIoU类似,可以通过对所有类别的Dice系数求平均值来计算平均Dice分数。
虽然mIoU和平均Dice是主要的,但其他度量标准提供了更多信息:
评估实例分割需要同时考虑检测准确度(找到物体)和分割质量(掩码准确度)。度量标准通常从物体检测中调整而来,例如平均精度(AP),但会加入掩码IoU。通常,只有当预测边界框与真实边界框充分重叠且预测掩码与真实掩码之间的掩码IoU超过某个阈值(例如0.5)时,该预测才被视为真阳性。然后,AP通过对不同召回率水平上的精度进行平均计算得到,通常还会跨越多个掩码IoU阈值(例如,在COCO挑战赛中,对IoU阈值从0.5到0.95,以0.05的步长取平均AP)。
选择正确的度量标准取决于具体的应用需求。然而,对于一般的语义分割任务,mIoU仍然是最常用且信息量大的评估基准。理解这些度量标准如何计算及其细节,对于正确理解模型性能和比较不同的分割方法非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造