趋近智
自编码器的主要理念,正如我们之前提到过的,是它能学习数据的紧凑表示,然后从这种表示中重建原始数据。这不是魔法;它是通过一个精心定义的架构来实现的,该架构由三个主要组成部分构成:编码器、瓶颈和解码器。可以把它们想象成数据流水线上按顺序工作的三位专家。
数据遇到的第一位专家是编码器。它的任务是接收输入数据并进行压缩。想象你有一篇非常长、细节丰富的故事(你的输入数据)。编码器的作用就是阅读这个故事,然后写一个短小精悍的摘要,捕捉到最重要的情节和人物。
它是怎么做到的呢?编码器通常是一个神经网络,它逐渐减少输入数据的维度。如果你的输入数据是像素很多的图像,编码器会通过其层进行处理,每个层可能比前一层拥有更少的“神经元”或单元。这迫使网络学习如何在更小的空间中表示原始信息。编码器的输出就是这种压缩形式,通常称为“编码”或“潜在表示”。
如果输入数据是 X,编码器(其函数表示为 e)会将 X 转换为压缩表示 z: z=e(X) 目的是让 z 在维度上比 X 小得多,而不丢失核心信息。
编码器生成的压缩摘要不会凭空消失。它会到达一个被称为瓶颈的特定位置,也被称为“潜在空间”或“编码层”。这是自编码器中最窄的部分,也是数据最紧凑、最精炼的版本所在。
可以把它想象成沙漏最细的部分。所有的沙子(数据)都必须通过这个狭窄的通道。这个瓶颈的大小是一个重要的设计选择。
瓶颈,也就是这个层 z,保存了学习到的压缩特征。它是自编码器认为的输入数据的一个良好、紧凑的内部表示。
一旦数据通过瓶颈挤压并以压缩表示 z 的形式存在,就轮到解码器登场了。解码器的任务与编码器的任务相反:它接收压缩摘要,并尝试重建原始的完整故事。
解码器通常也是一个神经网络,其结构通常与编码器的结构相反。它接收来自瓶颈的低维数据并逐渐扩展它,目标是将其重建为原始的高维形式。如果编码器有逐步减少单元数量的层,那么解码器将有逐步增加单元数量的层。
因此,如果压缩表示是 z,解码器(我们将其函数表示为 d)会尝试重建原始输入 X。我们将重建结果称为 X′。 X′=d(z) 自编码器的训练过程(我们稍后会讨论)就是让 X′ 尽可能接近原始的 X。如果解码器能够从瓶颈中的压缩版本成功重建原始数据,这表示瓶颈包含了一个有用、信息量大的输入表示。
这三个部分——编码器、瓶颈和解码器——协调运作。编码器学习将输入映射到低维潜在空间(即瓶颈),而解码器学习将这种潜在表示映射回原始数据空间。
此图显示了数据通过自编码器的流程。输入数据首先由编码器压缩为低维瓶颈表示,然后由解码器扩展以生成重建数据。
理解这些组成部分是基础。在下一章中,我们将更仔细地查看编码器和解码器的内部运作方式,包括它们使用的层类型和函数。目前,请记住这个顺序:压缩、紧凑存储和重建。这就是自编码器架构的核心。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造