趋近智
当应用线性变换时,特征值和特征向量会显示空间中方向保持不变(除了缩放)的特点。此性质对于理解数据的内在结构非常有帮助,这是主成分分析(PCA)的根本。
PCA是机器学习和数据分析中的一种基本方法,主要用于降维。其主要目的是为数据找到一组新的坐标轴,称为主成分。选择这些新轴的目的是使数据中最大的方差沿第一个轴被捕获,剩余的最大方差沿第二个轴(与第一个轴正交)被捕获,依此类推。这样我们就能用更少的维度表示数据,同时最大程度地减少信息丢失。
为了找到这些最大方差的方向,我们首先需要量化数据集中不同特征如何共同变化。这正是协方差矩阵(C)的作用。对于一个包含 p 个特征的数据集,协方差矩阵是一个 p×p 对称矩阵。它的对角线元素 Cii 是第 i 个特征的方差;非对角线元素 Cij 是第 i 个特征和第 j 个特征之间的协方差。
该矩阵总结了数据的离散程度和线性关系。
这里有一个重要关联:数据协方差矩阵 C 的特征向量指向数据中最大方差的方向。 这些方向就是主成分。此外,与每个特征向量关联的特征值 λ 量化了沿该特定方向的方差大小。
回想定义 Ax=λx。在PCA中,我们的矩阵 A 就是协方差矩阵 C。特征向量 x(在PCA文献中常表示为 u 或 v)就是主成分。当我们对协方差矩阵 C 的一个特征向量 u 进行变换时,结果就是该向量按其特征值 λ 进行缩放:Cu=λu。
这为何重要?事实表明,找到能使数据投影到其上(uTCu)的方差最大化的方向 u(一个单位向量),会直接得到特征向量方程。使此方差最大的方向 u 就是 对应于 C 的最大特征值的特征向量。所获得的最大方差等于该最大特征值 λmax。
因此,数据的主成分就是其协方差矩阵 C 的特征向量,通常按特征值从高到低排序。
想象一个形成椭圆形云团的二维数据点的散点图。此数据协方差矩阵的特征向量将与该椭圆的轴对齐。
散点图显示二维数据点。PC1(红线)指示最大方差的方向,这由具有最大特征值的特征向量决定。PC2(橙色虚线)与PC1正交,捕获次大的方差。
特征值说明了每个主成分(特征向量)捕获的方差大小。通过将特征向量根据其对应的特征值按降序排列,我们就能知道哪些方向对描述数据离散程度最“重要”。
要将数据从 p 维降到更少的 k 维(其中 k<p),PCA 包括以下步骤:
结果是一个 k 维数据集,它保留了原始 p 维数据中最重要的方差。前 k 个主成分保留的总方差比例可以通过求前 k 个特征值的和并除以所有特征值的和来计算。
特征值和特征向量对主成分分析非常重要,因为:
这种关联使得PCA能够系统地辨识数据中最有用的方向,从而有效地进行降维,同时保留数据的基本结构。理解这种关联对于任何在机器学习中应用或理解PCA结果的人都很有意义。在接下来的实践练习中,您将学习如何使用NumPy等库进行这些计算。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造