信息论提供了一个有效的视角,用于观察和量化 (quantization)贝叶斯推断的各个方面。贝叶斯学习主要在于根据新数据更新我们的信念(由概率分布表示)。信息论提供了工具,用于度量这些信念中固有的不确定性以及不同信念状态之间的“距离”或散度。熵和Kullback-Leibler(KL)散度是两个主要概念。
香农熵:量化 (quantization)不确定性
香农熵度量随机变量可能结果中固有的“信息”、“意外”或“不确定性”的平均水平。对于具有概率质量函数p(x)的离散随机变量X,熵H(X)定义为:
H(X)=−x∈X∑p(x)logp(x)
对于具有概率密度函数p(x)的连续随机变量X,微分熵为:
H(X)=−∫−∞∞p(x)logp(x)dx
对数的底决定了单位(以2为底得到比特,以e为底得到纳特)。熵值越高表示对X的结果不确定性越大。分布在单个值附近尖锐集中的熵值较低,而在广泛范围内均匀分布的熵值较高。
在贝叶斯建模中:
- 先验不确定性: 先验分布P(θ)的熵量化了我们在观测到任何数据之前对参数 (parameter)θ的初始不确定性。宽泛的、无信息的先验通常具有更高的熵。最大熵原则有时用于选择编码最少假设的先验。
- 后验不确定性: 后验分布P(θ∣D)的熵量化了我们在观测数据D之后剩余的不确定性。成功的学习理想情况下应带来比先验更低的后验熵,这表明数据减少了我们对θ的不确定性。
Kullback-Leibler(KL)散度:度量分布之间的差异
熵度量单个分布的不确定性,而KL散度则量化 (quantization)一个概率分布P与第二个参考概率分布Q之间的差异。它通常被解释为使用Q来近似P时丢失的信息,或是P相对于Q的相对熵。
对于离散分布P(x)和Q(x):
DKL(P∣∣Q)=x∈X∑p(x)logq(x)p(x)
对于连续分布p(x)和q(x):
DKL(p∣∣q)=∫−∞∞p(x)logq(x)p(x)dx
KL散度的重要性质:
- 非负性: DKL(P∣∣Q)≥0,当且仅当P=Q时取等号。
- 非对称性: 通常情况下,DKL(P∣∣Q)=DKL(Q∣∣P)。这意味着它并非真正的距离度量,而是一种有方向的散度。选择哪个分布在前是重要的。
这种非对称性具有重要意义。最小化DKL(P∣∣Q)会促使Q在P非零的地方也非零(它试图覆盖P)。最小化DKL(Q∣∣P)会促使Q在P为零的地方也为零(它试图被P包含)。
KL散度DKL(P∣∣Q)量化了分布P(蓝色)与分布Q(粉色)之间的差异。它度量了当真实分布是P时使用Q的低效性。请注意其非对称性,DKL(P∣∣Q)将产生与DKL(Q∣∣P)不同的值。
在贝叶斯推断中的作用
当处理前面提到的计算难题,特别是难以处理的后验分布P(θ∣D)时,信息论与贝叶斯方法之间的关联变得尤为明显。
变分推断(VI): 这是KL散度的一个主要应用场景。变分推断将贝叶斯推断重构为一个优化问题。我们寻求一个来自易于处理的分布族(例如,高斯分布)的近似Q(θ),使其“最接近”真实的、通常难以处理的后验P(θ∣D)。“最接近”通常使用KL散度来度量。具体而言,变分推断旨在最小化DKL(Q(θ)∣∣P(θ∣D))。直接最小化它仍然很困难,因为它涉及到未知的后验。然而,最小化此KL散度等价于最大化一个称为证据下界(ELBO)的量:
ELBO(Q)=EQ[logP(D,θ)]−EQ[logQ(θ)]
最大化ELBO会使Q(θ)在KL意义上接近真实的后验P(θ∣D)。我们将在第3章讨论变分推断方法时详细讨论这种关系。
模型比较与选择: 虽然正式的贝叶斯模型比较通常依赖于边际似然P(D)或贝叶斯因子,但诸如AIC(赤池信息准则)和DIC(偏差信息准则)等信息准则与KL散度有关联。它们提供了估计模型预期样本外预测准确性的方法,暗含了对模型拟合与复杂度之间平衡的考量,这些思想与信息增益和分布散度相关。
总而言之,熵提供了一种量化 (quantization)我们贝叶斯模型先验和后验中不确定性的方法。KL散度提供了一个比较概率分布的基本工具,它构成了诸如变分推断等近似方法的数学基础,这些方法对于将贝叶斯方法应用于后验精确计算不可行的复杂、高维问题是不可或缺的。因此,理解这些信息论度量不仅仅是理论练习;它对于实现和解释许多高级贝叶斯方法是基础。