趋近智
信息论提供了一个有效的视角,用于观察和量化贝叶斯推断的各个方面。贝叶斯学习主要在于根据新数据更新我们的信念(由概率分布表示)。信息论提供了工具,用于度量这些信念中固有的不确定性以及不同信念状态之间的“距离”或散度。熵和Kullback-Leibler(KL)散度是两个主要概念。
香农熵度量随机变量可能结果中固有的“信息”、“意外”或“不确定性”的平均水平。对于具有概率质量函数p(x)的离散随机变量X,熵H(X)定义为:
H(X)=−x∈X∑p(x)logp(x)对于具有概率密度函数p(x)的连续随机变量X,微分熵为:
H(X)=−∫−∞∞p(x)logp(x)dx对数的底决定了单位(以2为底得到比特,以e为底得到纳特)。熵值越高表示对X的结果不确定性越大。分布在单个值附近尖锐集中的熵值较低,而在广泛范围内均匀分布的熵值较高。
在贝叶斯建模中:
熵度量单个分布的不确定性,而KL散度则量化一个概率分布P与第二个参考概率分布Q之间的差异。它通常被解释为使用Q来近似P时丢失的信息,或是P相对于Q的相对熵。
对于离散分布P(x)和Q(x):
DKL(P∣∣Q)=x∈X∑p(x)logq(x)p(x)对于连续分布p(x)和q(x):
DKL(p∣∣q)=∫−∞∞p(x)logq(x)p(x)dxKL散度的重要性质:
这种非对称性具有重要意义。最小化DKL(P∣∣Q)会促使Q在P非零的地方也非零(它试图覆盖P)。最小化DKL(Q∣∣P)会促使Q在P为零的地方也为零(它试图被P包含)。
KL散度DKL(P∣∣Q)量化了分布P(蓝色)与分布Q(粉色)之间的差异。它度量了当真实分布是P时使用Q的低效性。请注意其非对称性,DKL(P∣∣Q)将产生与DKL(Q∣∣P)不同的值。
当处理前面提到的计算难题,特别是难以处理的后验分布P(θ∣D)时,信息论与贝叶斯方法之间的关联变得尤为明显。
变分推断(VI): 这是KL散度的一个主要应用场景。变分推断将贝叶斯推断重构为一个优化问题。我们寻求一个来自易于处理的分布族(例如,高斯分布)的近似Q(θ),使其“最接近”真实的、通常难以处理的后验P(θ∣D)。“最接近”通常使用KL散度来度量。具体而言,变分推断旨在最小化DKL(Q(θ)∣∣P(θ∣D))。直接最小化它仍然很困难,因为它涉及到未知的后验。然而,最小化此KL散度等价于最大化一个称为证据下界(ELBO)的量:
ELBO(Q)=EQ[logP(D,θ)]−EQ[logQ(θ)]最大化ELBO会使Q(θ)在KL意义上接近真实的后验P(θ∣D)。我们将在第3章讨论变分推断方法时详细讨论这种关系。
模型比较与选择: 虽然正式的贝叶斯模型比较通常依赖于边际似然P(D)或贝叶斯因子,但诸如AIC(赤池信息准则)和DIC(偏差信息准则)等信息准则与KL散度有关联。它们提供了估计模型预期样本外预测准确性的方法,暗含了对模型拟合与复杂度之间平衡的考量,这些思想与信息增益和分布散度相关。
总而言之,熵提供了一种量化我们贝叶斯模型先验和后验中不确定性的方法。KL散度提供了一个比较概率分布的基本工具,它构成了诸如变分推断等近似方法的数学基础,这些方法对于将贝叶斯方法应用于后验精确计算不可行的复杂、高维问题是不可或缺的。因此,理解这些信息论度量不仅仅是理论练习;它对于实现和解释许多高级贝叶斯方法是基础。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造