信息论提供了一个强大的定量框架,用于理解何谓有效表征。数学的这一分支使我们能够衡量不确定性和信息量,为分析和设计表征学习算法(包括本课程的核心——变分自编码器VAE)提供了精确的工具。理解这些原理将有助于阐明为何使用某些目标函数,以及我们如何评估所学表征的质量。
信息和不确定性的量化 (quantization)
信息论的核心是一些基本量,它们帮助我们理解数据和模型。
熵
熵,对于随机变量X表示为H(X),衡量与X的结果相关的平均不确定性或“惊喜”量。对于具有概率质量函数P(x)的离散随机变量X,其熵为:
H(X)=−x∈X∑P(x)log2P(x)
对数通常以2为底,此时熵的单位为比特。一个尖锐集中的分布(即某个结果的可能性很高)具有较低的熵,而均匀分布(所有结果可能性均等)在给定状态数量下具有最大熵。在表征学习中,熵可以描述数据特征或潜在变量的多样性或复杂性。
互信息
互信息(MI)衡量一个随机变量包含另一个随机变量的信息量。对于两个随机变量X和Z,它们的互信息I(X;Z)量化了因了解Z而导致的X不确定性的减少,反之亦然。其定义为:
I(X;Z)=H(X)−H(X∣Z)=H(Z)−H(Z∣X)
其中H(X∣Z)是给定Z时X的条件熵。MI也可以使用KL散度(接下来讨论)表示:
I(X;Z)=DKL(P(x,z)∣∣P(x)P(z))
这表明MI衡量X和Z之间的依赖关系。如果X和Z相互独立,I(X;Z)=0。
在表征学习中,我们通常关注一个潜在表征Z,它能捕捉关于输入X的大量信息。因此,高I(X;Z)通常是期望的。例如,自编码器中的编码器旨在产生一个Z,它尽可能多地保留关于X的信息,以便进行准确重建。MI也是理解和促进解耦的基础,我们可能希望潜在向量 (vector)Z=(Z1,...,Zd)的不同分量对数据中不同、独立的变异因素提供信息,这意味着当i=j时,I(Zi;Zj)较低。
Kullback-Leibler (KL) 散度
Kullback-Leibler (KL) 散度,或称相对熵,衡量一个概率分布P与第二个期望概率分布Q之间的差异。对于定义在相同概率空间X上的离散分布P和Q,它由以下公式给出:
DKL(P∣∣Q)=x∈X∑P(x)logQ(x)P(x)
对于连续分布,求和被积分代替。
KL散度的重要性质包括:
- DKL(P∣∣Q)≥0。
- DKL(P∣∣Q)=0当且仅当P=Q时成立。
- 它不是对称的:一般情况下,DKL(P∣∣Q)=DKL(Q∣∣P)。
在变分自编码器(VAE)中,正如我们将在第2章详细讨论的那样,KL散度扮演重要角色。它通常作为正则化 (regularization)项出现在VAE目标函数中,促使所学潜在变量的分布q(z∣x)(近似后验)接近选定的先验分布p(z)(例如,标准正态分布)。这种正则化对于确保潜在空间具有良好的生成性质很重要。
信息瓶颈原理
信息瓶颈(IB)原理提供了一个正式的框架,用于学习既压缩又信息丰富的表征。给定输入变量X和目标变量Y(可以是监督任务中的类别标签,或者用于重建的X本身),目标是学习一个到表征Z的随机映射p(z∣x),使其充当“瓶颈”。这个Z应该对Y提供最大信息量,同时对X提供最小信息量。
这种权衡由以下目标函数形式化:
LIB=I(Z;Y)−βI(X;Z)
我们旨在最大化这个拉格朗日量,其中β是拉格朗日乘数,它控制着Z对Y的信息量与X压缩到Z之间的权衡。
- 最大化I(Z;Y)意味着Z应该尽可能多地保留关于目标Y的信息。
- 最小化I(X;Z)(通过最大化−I(X;Z))意味着Z应该压缩X,丢弃X中与Y无关的信息。
信息瓶颈框架。表征Z被学得为输入X的压缩版本,同时保留与目标Y相关的信息。
信息瓶颈(IB)原理与变分自编码器(VAE)高度相关。虽然并非总是明确地这样表述,但VAE目标鼓励学习一个压缩的潜在表征Z(通过KL散度项,在某些条件下它与I(X;Z)相关),它足以重建X(这与当Y=X时的I(X;Z)或I(Z;X)相关)。理解IB有助于说明VAE目标的结构以及所学潜在空间中期望的性质。
VAE中的信息论
如前所述,信息论量不仅是分析工具;它们与VAE的机制紧密相关。
- 重建和I(X;Z): VAE目标中的重建项,通常为−Eq(z∣x)[logp(x∣z)],促使解码器p(x∣z)从Z准确重建X。这隐式地促使Z保留关于X的信息,从而与I(X;Z)相关。一个对X提供大量信息的Z将允许更好的重建。
- KL散度与正则化 (regularization): VAE目标中的DKL(q(z∣x)∣∣p(z))项强制每个输入x的近似后验q(z∣x)接近先验p(z)。此项可以从几个方面解释:
- 作为正则化器,它防止q(z∣x)变得过于复杂或过于特定于单个xi,从而促进更平滑、更有组织的潜在空间。
- 它鼓励编码效率,因为z样本可以被视为从p(z)中抽取。
- 它与I(X;Z)有联系。例如,如果p(z)是因子化的(即,分量是独立的),并且q(z∣x)也被鼓励是因子化的,这有助于实现某种形式的解耦。在证据下界(ELBO)最大化下最小化DKL(q(z∣x)∣∣p(z))隐式控制了X和Z之间的信道容量。
表征评估
在指导学习过程中,信息论提供评估所学表征质量的工具。例如,互信息可以用来评估:
- 信息量: 潜在变量Zi对数据中已知的底层变异因素提供了多少信息?
- 解耦性: 不同的潜在变量Zi和Zj是否统计独立?I(Zi;Zj)可以量化 (quantization)这一点。
我们将在第5章讨论解耦指标时再次讨论这些评估方面,其中许多源自信息论原理。
总之,信息论提供了一种精确的语言和一套工具来分析VAE等概率模型中的信息流。它帮助我们理解什么是“好”的表征(例如,信息丰富、压缩、解耦),并提供将这些性质构建到模型中的机制。这一基础对于我们进一步学习VAE及其高级变体的数学细节将很有价值。