趋近智
设想你的数据集有数百个特征。例如,一个房地产数据集可能包括面积、房间数量、建筑年龄、到最近学校的距离、当地犯罪率以及几十个其他变量。虽然更多数据可能有帮助,但拥有过多特征或维度,会使机器学习模型难以有效学习。这会增加计算时间,并可能导致一个被称为“维度灾难”的问题,即模型从噪声中学习,而非数据中的潜在信息。
为了处理具有大量特征的数据并提升机器学习模型的效率,降维技术是不可或缺的。其目标是减少特征数量,同时尽可能保留数据集中主要的信息。主成分分析(PCA)是实现这一目的最常用且有效的方法之一。
本质上,PCA是一种将数据转换为一组新特征(称为主成分)的方法。这些新成分按照它们捕获原始数据方差的多少进行排序。第一个主成分(PC1)旨在捕获尽可能大的方差。第二个主成分(PC2)捕获次大的方差,其条件是它必须与第一个主成分正交(垂直)。所有成分都依此进行。
这个过程会为你提供一个排列好的成分列表。为了减少维度,你只需保留前几个捕获了大部分信息的成分,并丢弃其余的。
我们第5章学过的特征向量和特征值在这里变得非常有用。PCA通过分析数据集中特征之间的关系来运作。这种关系由一个称为协方差矩阵的矩阵表示。
这个协方差矩阵的特征向量指向数据中方差最大的方向。实际上,这些特征向量就是主成分。具有最大对应特征值的特征向量是第一个主成分,因为它指向数据中“散布”最大的方向。具有次大特征值的特征向量是第二个主成分,依此类推。
特征值本身说明了每个主成分捕获的方差量。较大的特征值表示其对应的特征向量(和主成分)很有意义。
让我们看一个简单的二维数据集。设想将两个特征相互绘制,数据点形成一个细长的云团。
主成分(红色和橙色箭头)标识了数据中方差最大的轴。PC1捕获了最大的散布,而PC2捕获了次大的散布。
在此图中,你可以看到数据沿红色箭头(PC1)方向变化最大。沿橙色箭头(PC2)方向的变化则小得多。如果我们要将此数据集从二维降至一维,我们可以将所有数据点投影到由PC1定义的线上。我们将丢失与PC2相关的信息,但由于PC1捕获了大部分方差,我们将保留数据最主要的结构。
以下是执行PCA的一个高层总结:
通过应用PCA,我们利用线性代数的基本原理,特别是特征值和特征向量,使数据量大的数据集更易于处理。这使得它们更容易可视化、处理速度更快,并且通过去除噪声,通常能在机器学习模型中带来更好的表现。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造