趋近智
尽管主成分分析(PCA)等线性方法在数据主要呈现线性相关性时,对于捕捉方差和降低维度很有效,但它们在处理许多数据集固有的复杂性时常常力不从心。这些方法的一个主要局限在于它们从根本上假定数据位于或接近高维空间 (high-dimensional space)中的线性子空间。这一假定经常失效。
许多高维数据,例如图像、音频信号或文本嵌入 (embedding),用流形假说来描述更为恰当。这一假说认为,尽管数据点存在于一个极高维的环境空间(如图像所有可能像素值的空间)中,但它们实际上靠近内嵌于该空间中的一个低维非线性流形。
设想一张卷起来的纸(一个“瑞士卷”)在三维空间中。纸张表面的固有维度是二维的,但它存在于三维环境中。像PCA这样的线性方法,旨在找到最大方差的方向,可能会简单地将纸卷投影到二维平面上,从而有效地将其压扁并失去其内在结构。在纸卷表面上相距较远的点,在PCA投影中可能显得彼此靠近。
数据点在非线性流形上的简化三维表示,类似于“瑞士卷”。线性方法难以捕捉其内在结构。
对“瑞士卷”数据应用PCA会将点投影到二维平面上。请注意,其固有结构是如何丢失的,以及在卷上相距较远的点在投影中可能变得靠近。
表示学习的目的不仅是降维;它还关于找出能有效捕捉数据内在结构和变化的特征或要素。再次考虑图像数据。一个物体(例如,“猫”)的识别在光照、姿态、比例或平移等各种变换下保持不变。这些变换在像素空间中通常是高度非线性的。
这就是神经网络,即自编码器的构成元素,发挥作用的地方。深度学习 (deep learning)模型的强大之处主要源于它们学习复杂非线性函数的能力。这种能力来自两个主要部分:
像t-SNE和UMAP这些之前介绍过的技术,通过创建保留局部关系的低维嵌入 (embedding),非常适合可视化这些非线性结构。然而,它们通常不提供将新数据点映射到嵌入空间的显式编码器函数,也不学习适合重建或生成任务的特征。
因此,为了学习能够捕捉复杂数据结构以用于超越可视化(如压缩、去噪、生成或迁移学习 (transfer learning))任务的表示,我们需要能够学习强大的非线性特征提取器的方法。自编码器提供了一个灵活有效的框架,以无监督或自监督的方式直接从数据中学习此类非线性映射,构成了后续章节的主要内容。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造