趋近智
正如我们所见,降维旨在通过减少特征或维度的数量,同时保持数据的重要特性,来简化复杂数据集。减少这些维度的具体方法,会很大程度上影响所保留的信息种类以及可有效构建模型的数据结构类型。大体上,这些技术分为两大类:线性和非线性降维。理解它们的区别,对于为您的数据选择合适的工具,以及理解为什么作为非线性方法的自编码器在许多现代特征提取任务中表现出色,都很有必要。
线性降维方法通过线性操作来转换数据。可以将其视作将数据投影到一个新的、低维空间,新特征(维度)是原始特征的线性组合。这些变换类似于数据点云的旋转、缩放和剪切,但从根本上说,它们沿直线或平面进行操作。
主成分分析 (PCA) 是线性降维最常见的例子。 从其根本看,PCA 会找出数据中包含最大方差的方向(主成分)。设想您的数据是一团点云;PCA 会找到点云延展最开的轴线。这便成为第一主成分。第二主成分是与第一主成分正交的下一条轴线,它包含剩余最多的方差,依此类推。通过选择前 个主成分,您可以将数据降至 个维度。
线性方法(如 PCA)的优势:
线性方法的局限:
设想试图通过将一个卷曲的弹簧(一个三维物体)的影子投射到二维墙壁上来表示它。如果您从侧面打光,可能会很好地表示其长度和卷曲。但如果您从末端打光,影子可能只像一个圆形,从而失去弹簧的大部分结构。如果数据的实际结构与线性方法的假设不“对齐 (alignment)”,它们有时就会像那种信息较少的投影。
许多数据集,特别是那些涉及图像、文本或复杂生物体系的数据集,不符合简单的线性结构。相反,数据点可能位于或接近一个低维的流形上,这是一种嵌入 (embedding)在高维空间 (high-dimensional space)中的弯曲表面或复杂形状。例如,手写数字“3”的图像可能在倾斜度、粗细和风格上有所不同,但它们根本上都属于一个“3的特性”流形,其维度远低于原始像素空间。
非线性降维 (NLDR) 技术旨在识别并“展开”或“展平”这些流形,以寻找更忠实的低维表示。它们旨在保持数据的固有结构,这通常意味着原始高维空间中相邻的点在低维表示中也彼此靠近。
数据点呈“瑞士卷”模式排列,这是一个演示非线性流形的典型示例。线性方法将难以有效“展开”这些数据。
流行的非线性降维方法包括:
非线性方法的优势:
非线性方法的缺点:
那么,何时应该选择线性方法而非非线性方法呢?没有唯一的答案,但这里有一些指导原则:
| 方面 | 线性方法(例如 PCA) | 非线性方法(例如自编码器、t-SNE) |
|---|---|---|
| 数据结构 | 假设线性关系,侧重全局结构 | 处理复杂、弯曲结构,侧重局部/流形 |
| 变换方式 | 原始特征的线性组合 | 复杂、非线性映射 |
| 可解释性 | 通常更高;分量可与输入关联 | 通常更低;潜在特征更抽象 |
| 计算开销 | 更低 | 更高 |
| 应用场景 | 基准,快速分析,线性合理时 | 复杂数据(图像、文本),线性方法失效时 |
| 主要目标 | 最大化方差,正交分量 | 保持邻近结构,重建输入 |
实用建议:
这便引出了本课程的重点。自编码器是一种神经网络 (neural network),它学习将高维输入数据映射到低维潜在空间的非线性变换,然后再从潜在空间映射回来以重建原始输入。这种直接从数据中学习恰当非线性变换的能力,使它们在特征提取方面具备多用性和强效性。它们不依赖于网络架构和训练过程所能学习范围之外的预设数据结构假设。
通过理解线性和非线性方法的差异,您现在能更好地体会为什么以及自编码器如何能够找出丰富、压缩的特征,这些特征在后续机器学习 (machine learning)任务中常带来更优表现,尤其是在处理当今应用中常见的复杂、高维数据时。下一章中,我们将更详细地审视自编码器的基础架构。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•