趋近智
为审视塑造现代计算机视觉的精巧架构做准备,将概述构成几乎所有卷积神经网络 (neural network) (CNN) 基础的基本组成部分。这将确保对术语和机制有共同的理解。
任何卷积神经网络 (neural network) (CNN)的核心都是卷积层。它的主要作用是在输入图像(或前一层的特征图)中识别局部模式,例如边缘、拐角和纹理。这是通过将小型滤波器(也称为卷积核)滑动通过输入体来实现的。
卷积层的重要方面包括:
在卷积操作之后,通常会将激活函数逐元素应用于结果特征图。其作用是为网络引入非线性。如果没有非线性,堆叠多个卷积层将等同于单个更大的卷积层,从而限制了网络对数据中复杂关系的建模能力。
现代卷积神经网络 (neural network) (CNN)中最常用的激活函数是整流线性单元 (ReLU):
ReLU 计算效率高,并有助于缓解在非常深的网络中早期激活函数(如 Sigmoid 或 Tanh)遇到的梯度消失问题。虽然 Leaky ReLU、参数 (parameter)化 ReLU (PReLU) 或 GELU 等变体存在并用于更精巧的架构中,但标准 ReLU 仍然是一个可靠的基准。
池化层通常插入在连续的卷积层之间。它们的主要目标是:
常见的池化策略包括:
与卷积层类似,池化层具有窗口大小和步长。例如,常用的 的窗口和 2 的步长,有效地将特征图的宽度和高度减半,同时保持深度不变。
卷积神经网络 (neural network) (CNN)块内典型的操作序列,将输入体转换为一组抽象特征图。
这三个组件以各种配置堆叠,构成了大多数卷积神经网络的基本处理单元。理解它们各自的作用以及如何相互配合是考察旨在构建更深、能力更强的架构创新所必需的,我们将在后面介绍这些创新。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•