趋近智
标准卷积网络通常依赖池化层来逐渐降低空间分辨率,同时增大感受野。这在图像分类中效果良好,因为最终输出是整个图像的单个标签。然而,对于语义分割,我们需要密集、像素级的预测。激进的下采样后再进行上采样(例如在基本的全卷积网络或编解码器结构中)会导致细粒度空间信息的丢失,使得准确描绘物体边界变得困难。
空洞卷积,也称为atrous卷积(源自法语“à trous”,意为“带孔的”),提供了一种不同的方法来增大卷积层的感受野,而无需降低空间分辨率或显著增加参数数量。
核心思想是在应用卷积时,在卷积核权重之间引入空隙。一个标准的 3×3 卷积核对输入特征图的一个连续的 3×3 区域进行操作。空洞卷积引入了一个 dilation rate(膨胀率),记作 r。膨胀率 r 表示卷积核权重之间间隔了 r−1 个像素。
考虑一个1维例子。令 x 为输入信号,w 为大小为 K 的滤波器。标准1维卷积的输出 y[i] 是: y[i]=∑k=1Kx[i+k−1]⋅w[k]
膨胀率为 r 的1维空洞卷积的输出 y[i] 是: y[i]=∑k=1Kx[i+r⋅(k−1)]⋅w[k]
注意输入索引是如何通过膨胀率 r 进行间隔的。这有效地扩展了卷积核的视野,而无需增加参数或需要更大的卷积核尺寸。
一个 3×3 卷积核的感受野比较。左图:标准卷积 (r=1) 覆盖了 3×3 的输入区域(蓝色)。右图:膨胀率为 r=2 的空洞卷积使用相同的9个权重,但通过有间隔地采样输入像素(绿色)来覆盖 5×5 的区域(灰色代表空隙)。两者都计算一个单一的输出值(红色)。
为什么这种改变对语义分割特别有用?
尽管功能强大,天真地堆叠相同膨胀率的空洞卷积可能导致一个被称为“网格效应”的问题。因为卷积核总是以固定的稀疏模式采样输入位置,一些输入像素在更深层中可能永远不会参与到输出计算中。这可能在预测中产生棋盘状伪影。
缓解此问题的一个常见策略是在连续层中使用不同的膨胀率。例如,在后续层中使用 [1, 2, 5] 等速率确保所有输入像素最终在一系列层中都对输出有所贡献。这种方法有时被称为混合空洞卷积(Hybrid Dilated Convolution, HDC)。
空洞卷积是几种先进语义分割模型中的一个基础组成部分,最著名的是DeepLab系列。DeepLab架构在其骨干网络中广泛应用空洞卷积,以获取密集特征图。它们通常在并行分支中结合使用不同速率的空洞卷积,使用一个名为Atrous空间金字塔池化(ASPP)的模块,我们将在下一节中进行讨论。ASPP明确地以多种膨胀率探测输入的特征图,以捕获不同尺度的物体上下文信息。
总之,空洞卷积提供了一种有效的机制来控制CNN中的感受野大小,同时保持空间分辨率,解决了为语义分割等密集预测任务设计网络时的一个重要难题。它们使得模型能够高效地汇聚多尺度上下文信息,从而提高分割准确性,特别是对于较大的物体和复杂场景。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造