趋近智
如本章引言所述,图像分割使计算机视觉对图像的理解,比分类或目标检测更为精细。图像分割不同于为图像分配单一标签或在物体周围绘制边界框,它为每个像素分配一个类别。这种密集预测可提供场景中物体和区域的精确轮廓。然而,在这个目标之下,物体处理方式存在重要区别,这引出了两种主要的分割任务。
语义分割是将图像中每个像素分类到预定义类别集合中的任务。可以将其视为为每个像素分配一个语义标签(例如“道路”、“天空”、“人物”、“汽车”、“建筑”)。输出通常是与输入图像大小相同的图,其中每个像素的值对应其预测类别。
想象一幅图像,其中包含多辆汽车在路上。语义分割模型的目标是,将属于任何汽车的所有像素标记为“汽车”,所有道路像素标记为“道路”,等等。它知道每个像素位置存在什么,但不区分同一物体类别的不同实例。所有汽车都属于单一语义类别“汽车”。
特点:
应用: 语义分割对于场景理解很有价值,尤其是在整体环境和区域类型很重要的情况下。例子包括:
实例分割将此任务向前推进了一步。它不仅对每个像素进行分类,还能识别每个像素属于哪个物体实例。回到多辆汽车在路上的例子,实例分割模型会将属于第一辆汽车的所有像素识别为“car_instance_1”,将第二辆汽车的所有像素识别为“car_instance_2”,并适当地将道路像素标记为“road”。
本质上,实例分割同时进行物体检测和语义分割。它找到单个物体,并为每个检测到的实例提供精确的像素级遮罩。
特点:
应用: 实例分割在需要与场景中的单个物体进行交互或分析时非常有用。例子包括:
核心差异在于同一类别的单个物体是否被视为不同的实体。语义分割将它们归为同一类别标签下,而实例分割则将它们分离。
对比展示了语义分割和实例分割对于包含多个同类别物体的图像的不同目标和输出。
理解这种区别非常重要,因为网络架构、损失函数和评估指标在语义分割和实例分割任务之间通常不同。实例分割通常被认为是一个更复杂的问题,因为它既需要正确的分类,也需要精确描绘潜在重叠的物体实例。在本章后续内容中,我们将考察适用于这两种任务的架构,从常用于语义分割的初始方法开始,然后转向能够进行实例级预测的方法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造