趋近智
自编码器旨在学习输入数据的压缩表示。这种压缩得以体现的核心组成部分是瓶颈层。该层位于编码器和解码器之间,根本上是网络架构中最窄的部分,迫使来自输入 的信息被挤压成低维潜在空间表示,记作 。
可以将编码器看作一个过程,它接收高维输入向量 ,并通过(可能包含非线性激活函数的)多个中间层,将其映射到低维潜在向量 ,且 。瓶颈层正是其输出即此潜在向量 的那一层。
瓶颈层在结构上位于编码器和解码器之间,存储着压缩后的潜在表示 。
瓶颈层的维度 是一个重要超参数。它直接控制着压缩程度。
瓶颈施加的限制迫使自编码器高效地学习。它必须优先捕获输入数据中最显著的特征或变化因素,以最小化重建误差。与主成分分析(PCA)等寻找低维线性子空间的方法不同,自编码器通过其编码器和解码器中的非线性激活函数,可以学习数据中的复杂非线性流形。瓶颈表示 因此代表了此学习到的流形上的坐标。
瓶颈层中存储的这种压缩表示 通常被称为潜在代码、潜在变量,或简称为嵌入。它是编码过程的核心输出,也是解码过程的唯一输入。这种潜在空间的质量和结构对于自编码器执行其任务(无论是降维、特征学习,还是在更高级的变体中,生成建模)的表现非常重要。我们将在后续章节中研究这个潜在空间的属性和操作。
在实现方面,瓶颈在简单的自编码器中通常是一个标准的密集(全连接)层,在为特定数据类型设计的高级架构中,也可能是一个卷积层或循环层。其主要特点不一定是层的类型,而是其相对于输入和输出的降低的维度,充当编码器和解码器之间的信息通道。理解它的作用对于理解自编码器如何实现表示学习来说是根本的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造