趋近智
自编码器最有力的应用之一,直接源于其架构,就是降维。如前所述,自编码器学习将输入数据压缩成其瓶颈层中的低维表示,然后尝试从这种压缩形式中重建原始输入。这种智能压缩行为是自编码器实现降维的核心所在。
设想您正在处理一个拥有数百甚至数千个特征的数据集(比如电子表格中的列)。这在许多情形下很常见,从每个像素都可视为特征的图像数据,到拥有众多属性的客户数据。高维数据可能会带来一些挑战:
降维旨在解决这些问题,通过将数据从高维空间转换到低维空间,同时努力保留原始数据的有意义属性和变异。本质上,我们希望找到一种更紧凑的方式来表示我们的数据,而不会丢失过多重要内容。
这就是自编码器结构变得特别有用的地方。
可以将其比作编写一本长篇书籍的摘要。原书(高维数据)包含许多细节。编码器的任务是阅读这本书并生成一份简洁的摘要(瓶颈表示),它捕捉了主要情节和角色。然后,解码器尝试将这份摘要扩展回类似于原书的内容。如果解码器能够很好地完成任务,这意味着摘要(瓶颈)一定捕获了重要信息。
自编码器训练完成后,如果您的目标是降维,您主要使用编码器部分。您将高维数据输入到训练好的自编码器中,瓶颈层的输出就是新的低维特征。
自编码器用于降维的数据流。训练后,输入数据通过编码器,瓶颈层的激活值即作为新的低维特征集。
您可能会想,这与仅仅从原始数据中选取几列(一种称为特征选择的方法)有何不同。自编码器执行的是特征提取。瓶颈层中的特征并非仅仅是原始特征的子集。相反,它们是新特征,是原始特征的学习组合或变换,旨在捕获数据中最主要的变异。
使用自编码器进行降维的一个主要优点是它们学习非线性变换的能力。许多传统降维技术(如主成分分析,即PCA)是线性的,这意味着它们只能捕获数据中的线性关系。自编码器作为神经网络,可以学习更复杂的弯曲模式和关系,可能带来更有意义、更紧凑的表示。
需记住,降维几乎总是伴随一些信息损失。通过压缩数据,您不可避免地会丢弃一些细节。训练有素的自编码器的目标是明智地进行这种权衡:丢弃噪声或冗余信息,同时保留“主要特点”或“信号”。
瓶颈层的大小是一个很重要的超参数。
找到正确的平衡是设计自编码器技术的一部分。
使用自编码器进行降维可带来多项实际益处:
本质上,自编码器提供了一种灵活且有力的方式来学习数据的紧凑表示。通过训练网络通过狭窄的瓶颈重建其输入,我们鼓励它发现并编码最主要的基础结构,这使得它们成为以数据驱动方式进行降维的优秀工具。这种学习到的表示就是我们所说的“学习特征”,我们已在本章前面部分对此进行了介绍。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造