基于向量在线性变换 A 下方向不变,仅由特征值 λ 进行缩放(即 Ax=λx)的原理,我们现在可以考察这些特殊向量和标量如何帮助我们分解矩阵 A 本身。这个过程被称为特征分解,有时也称为谱分解,为理解 A 所代表的线性变换的性质和作用提供了一种有效方法。
特征分解公式
对于特定类型的矩阵,即可对角化的方阵,我们可以将矩阵 A 表示为其特征值和特征向量的乘积:
A=PDP−1
我们来阐明此公式中每个矩阵的含义:
P: 这是一个可逆矩阵,其列是 A 的线性无关特征向量。如果 A 是一个 n×n 矩阵,且拥有 n 个线性无关的特征向量 v1,v2,…,vn,则 P 通过将这些特征向量作为其列构成:P=[v1∣v2∣…∣vn]。
D: 这是一个对角矩阵,其主对角线上包含 A 的特征值。每个特征值 λi 在 D 中的位置与它在 P 中对应特征向量 vi 的位置一致。D 中所有非对角线上的元素均为零。
D=λ10⋮00λ2⋮0……⋱…00⋮λn
P⁻¹: 这表示矩阵 P 的逆。由于 P 的列是特征向量,因此 P 可逆的要求等同于要求 A 的特征向量构成向量空间 Rn 的一组基。这意味着特征向量必须线性无关。
特征分解何时可行?
需要注意的是,并非每个方阵都能以 A=PDP−1 的形式进行分解。这种因式分解仅当矩阵 A可对角化时才可行,这意味着它必须拥有完整的一组 n 个线性无关的特征向量(其中 A 是 n×n 矩阵)。好在,此条件对机器学习中常见的几种矩阵类型都适用:
实对称矩阵: 如果矩阵 A 是对称的(A=AT)且具有实数值,它总是可对角化的。一个很大的优点是,其特征向量可以被选为形成一个正交归一基。在这种情况下,矩阵 P 成为一个正交矩阵,这意味着它的逆就是它的转置(P−1=PT)。分解会精简为 A=PDPT。协方差矩阵是PCA等方法的核心部分,它们是对称的,这使得此属性非常有用。
具有不同特征值的矩阵: 如果一个 n×n 矩阵 A 拥有 n 个不同的特征值,那么其对应的特征向量必然线性无关。因此,任何具有不同特征值的矩阵都是可对角化的。
Mathematics for Machine Learning, Marc Peter Deisenroth, A. Aldo Faisal, Cheng Soon Ong, 2020 (Cambridge University Press) - 一本综合资源,将线性代数概念(包括特征分解)与机器学习算法(如PCA)直接关联起来。