表征学习的一个主要目标是找出与数据中不同、可解释因子相对应的潜在变量。在变分自编码器(VAE)框架中,证据下界(ELBO)的库尔巴克-莱布勒(KL)散度项,在塑造这些潜在表征及其实现解耦的可能性方面,扮演着重要的(尽管是间接的)作用。
VAE的目标函数通常表示为:
LELBO=Eqϕ(z∣x)[logpθ(x∣z)]−DKL(qϕ(z∣x)∣∣p(z))
此处,qϕ(z∣x) 是给定输入 x 时潜在变量 z 的近似后验分布,由 ϕ(编码器)参数 (parameter)化。pθ(x∣z) 是从 z 重构 x 的似然,由 θ(解码器)参数化。p(z) 项是潜在变量的先验分布,通常选择为标准多元高斯分布,p(z)=N(0,I)。这种先验选择并非随意;它体现了一个假设,即潜在维度是独立且具有单位方差的。
第二项,DKL(qϕ(z∣x)∣∣p(z)),是KL散度。在训练期间最小化该项,促使近似后验 qϕ(z∣x) 保持接近固定的先验 p(z)。下面我们阐明这种正则化 (regularization)如何影响解耦表征的学习。
促成后验中的因子分解
标准高斯先验 p(z)=N(0,I) 是一种因子化分布,这意味着 p(z)=∏ip(zi),其中每个 zi 都是独立的标准正态变量。通过惩罚 qϕ(z∣x) 相对于此因子化先验的偏差,VAE训练过程隐式促使学到的后验分布也表现出一定程度的因子化。如果数据中真实的潜在生成因子确实是独立的(或近似独立),这种压力可以引导模型使这些因子与潜在空间的各个维度对齐 (alignment)。因此,每个潜在维度 zi 可能会学到捕获数据中一个相对不同且独立的变异因子。
这种压力也延伸到聚合后验,q(z)=∫qϕ(z∣x)pdata(x)dx。VAE的目标有效地试图使此聚合后验与先验 p(z) 匹配。如果 p(z) 是各向同性高斯分布,模型就会被激励去排列潜在空间中的编码数据点 z,使其整体分布类似于这种简单、对称的形式。
此图阐明了KL散度项如何通过将近似后验 qϕ(z∣x) 与因子化先验 p(z) 进行比较,对学得的潜在表征施加多重影响。
KL项作为信息瓶颈
关于KL散度作用的另一种视角是通过信息瓶颈理论。项 DKL(qϕ(z∣x)∣∣p(z)) 可以(在常数项之外)重写为 −Eqϕ(z∣x)[logqϕ(z∣x)]−Eqϕ(z∣x)[logp(z)]。第一部分是后验的负熵,第二部分与后验拟合先验的程度有关。
本质上,KL项限制了 z 能传递关于 x 的信息量。如果允许 qϕ(z∣x) 任意复杂且远离 p(z),它就能编码 x 的许多具体细节。KL惩罚阻止了这一点。为了最小化整体ELBO(即最大化ELBO),模型在编码信息到 z 时必须节省。它被迫只保留对重构最突出的信息,同时使 qϕ(z∣x) 接近简单的先验。这种寻找紧凑高效表征的压力,如果表征数据变异的最有效方式是通过独立因子,就能间接促成解耦。
几何解读:轴对齐 (alignment)
一种几何直觉是,KL正则化 (regularization)促使学到的潜在因子与潜在空间的坐标轴对齐。如果 p(z) 是 N(0,I),则密度是各向同性的,其主轴是坐标轴。将 qϕ(z∣x) 推向此先验,可以激励编码器将数据中主要的变异方向映射到这些轴上。如果这些主要数据变异与可解释的生成因子对应,那么潜在空间中的每个轴就可能代表一个此类因子。这种轴对齐是许多良好解耦表征的一个标志。
权衡:重构质量与正则化 (regularization)强度
KL项的影响是一把双刃剑。虽然它促进形成结构化且可能解耦的潜在空间,但其相对于重构项(Eqϕ(z∣x)[logpθ(x∣z)])的强度也很重要。
- 弱正则化: 如果KL散度权重 (weight)不足或其最小化未被强力执行,qϕ(z∣x) 会变得与 p(z) 非常不同。这可能允许近乎完美的重构,但潜在空间可能高度纠缠,潜在维度之间存在复杂依赖关系。模型可能学到以不可解释的方式在 z 中“隐藏”信息。
- 强正则化: 相反,如果KL散度权重过高,它会主导学习过程。这会迫使 qϕ(z∣x) 对于所有输入 x 都极其接近 p(z)。在极端情况下,qϕ(z∣x)≈p(z),这意味着 z 几乎不携带关于 x 的信息。这种现象被称为后验坍缩或潜在变量消失问题。解码器此时基本上学会忽略 z,并仅根据平均数据分布生成样本,导致模糊或通用的重构。
这种精妙的平衡凸显了VAE中一种根本性的矛盾。我们希望潜在空间既结构化又规整(归功于KL项),同时信息量足够,能实现高质量数据生成(归功于重构项)。标准VAE对KL项施加一个隐式权重1。正如我们将看到的,像 β-VAE 这样的模型显式引入一个超参数 (parameter) (hyperparameter) β 来控制这种KL正则化的强度,提供了一个直接的手段来处理这种权衡,以实现解耦。
KL正则化 (regularization)用于解耦的局限性
尽管KL散度项为更简单、更因子化的表征提供了有益的归纳偏置 (bias),但它并非解耦的直接目标。其在实现解耦方面的成功通常取决于以下因素:
- 数据集的具体特性。
- 编码器和解码器的架构。
- 优化细节和超参数 (parameter) (hyperparameter)。
- 所选先验的适用性(例如,N(0,I))。如果真实生成因子是相关的或具有非高斯分布,各向同性高斯先验可能不是最优选择。
KL项主要促使聚合后验 q(z) 在匹配 p(z) 时实现统计独立。它没有明确强制单个潜在单元对应单一生成因子,也没有强制这些单元在特定真实因子条件下独立。正因如此,人们开发了更高级的技术(我们将在本章后续内容中研究),通过例如惩罚潜在维度间的总相关性或促使潜在变量与已知变异因子之间的特定关系,来更直接地针对解耦问题。
总而言之,VAE目标中的KL散度项作为一个重要的正则项。它将学到的潜在分布推向更简单、因子化的先验,这通过促使轴对齐 (alignment)和充当信息瓶颈,可以间接促进解耦表征。然而,其有效性受到与重构质量之间的重要权衡的制约,并且它本身并不能保证解耦。理解其影响是了解为何更高级的VAE变体和训练策略对于稳定学习解耦表征是必要的初步。