趋近智
虽然用全连接层构建的标准自编码器可以学习压缩表示,但它们在处理图像等高维空间 (high-dimensional space)数据时常遇困难。将图像视为扁平向量 (vector)会忽略其固有的二维结构(对于体积数据则是三维结构),从而带来以下问题:
卷积神经网络 (neural network)(CNN)专门设计用于有效处理空间数据并学习其表示,通过引入局部感受野、参数共享和层次化特征学习等原理。将这些原理整合到自编码器框架中,便形成了卷积自编码器(CAE),这是一种用于学习空间数据表示的高效架构。
CAE 保持了基本的编码器-瓶颈-解码器结构,但(至少在初始/最终阶段)用卷积层及相关层替代了全连接层。
CAE 中的编码器通常由一系列卷积层组成,这些层常与池化层交错或使用步进卷积。
Conv2D): 这些层在输入图像或特征图上应用一组可学习的滤波器。每个滤波器都充当特征检测器,响应其局部感受野内的特定模式(如边缘、纹理、角点)。重要的超参数 (parameter) (hyperparameter)包括滤波器数量(输出通道)、滤波器尺寸(核大小)、步幅和填充。使用多个滤波器使该层能同时检测多种特征。修正线性单元)或其变体(LeakyReLU、ELU),以使模型学习复杂模式。MaxPool2D、AvgPool2D)或步进卷积: 这些层在保留重要信息的同时,逐步减小特征图的空间维度(高和宽)。最大池化选择局部区域内的最大值,提供一定程度的平移不变性。平均池化计算平均值。此外,在卷积层中使用大于1的步幅,可以直接通过学习的变换实现空间下采样。当数据通过编码器时,空间分辨率通常会降低,而特征通道的数量常会增加。这种结构促使网络学习越来越抽象且空间上压缩的特征,从低级细节(如边缘)到更高级的表示。
瓶颈层仍然是核心组成部分,其中包含了压缩表示或潜在编码 。在 CAE 中,最终编码器层的输出(这可能是一个空间维度极小的卷积层,或一个扁平化的特征图)构成了此瓶颈。该层的维度决定了压缩的程度。
解码器的任务是从压缩的潜在表示 重构原始输入图像。它通常镜像编码器的架构,但顺序相反,使用增加空间分辨率同时减小特征图深度的层。
ConvTranspose2D): 为增加空间维度,解码器使用上采样技术。
Conv2D): 标准卷积层也用于解码器,通常伴随滤波器数量的减少,以精细化上采样后的特征,并最终将通道维度减少回原始输入的维度(例如,灰度图像为1,RGB图像为3)。目标是反转编码器的过程,将潜在空间中的抽象特征转换回与原始输入高度匹配的高分辨率图像。
卷积自编码器的示意图。编码器使用卷积层和池化层来减少维度,形成瓶颈表示。解码器使用上采样或转置卷积来重构原始空间维度。滤波器数量(F1, F2, F1', F2', C')和空间维度(H', W'等)在网络中会有变化。
CAE 的训练方式与标准自编码器类似,通过最小化重构损失函数 (loss function)来衡量输入图像 与重构输出 之间的差异。常见选择包括:
[-1, 1] 范围或原始像素强度的图像。它计算对应像素之间的平均平方差:
其中 是像素总数。[0, 1] 的情况,常被解释为概率(例如,在二值图像中或 Sigmoid 激活后)。
选择取决于输入数据的性质和输出激活函数 (activation function)。训练通过反向传播 (backpropagation)进行,使用 Adam 或 RMSprop 等优化器。
卷积自编码器相较于全连接自编码器在处理空间数据时具有突出优势:
这些特性使 CAE 适用于多种任务:
通过 CNN 的优点,CAE 提供了一个高效的框架,用于从图像及其他空间数据格式中学习有意义的表示。它们为许多先进的生成模型和计算机视觉应用提供了支撑。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•