信息论提供了一个有效的视角,用于观察和量化贝叶斯推断的各个方面。贝叶斯学习主要在于根据新数据更新我们的信念(由概率分布表示)。信息论提供了工具,用于度量这些信念中固有的不确定性以及不同信念状态之间的“距离”或散度。熵和Kullback-Leibler(KL)散度是两个主要概念。香农熵:量化不确定性香农熵度量随机变量可能结果中固有的“信息”、“意外”或“不确定性”的平均水平。对于具有概率质量函数$p(x)$的离散随机变量$X$,熵$H(X)$定义为:$$ H(X) = - \sum_{x \in \mathcal{X}} p(x) \log p(x) $$对于具有概率密度函数$p(x)$的连续随机变量$X$,微分熵为:$$ H(X) = - \int_{-\infty}^{\infty} p(x) \log p(x) dx $$对数的底决定了单位(以2为底得到比特,以$e$为底得到纳特)。熵值越高表示对$X$的结果不确定性越大。分布在单个值附近尖锐集中的熵值较低,而在广泛范围内均匀分布的熵值较高。在贝叶斯建模中:先验不确定性: 先验分布$P(\theta)$的熵量化了我们在观测到任何数据之前对参数$\theta$的初始不确定性。宽泛的、无信息的先验通常具有更高的熵。最大熵原则有时用于选择编码最少假设的先验。后验不确定性: 后验分布$P(\theta | \mathcal{D})$的熵量化了我们在观测数据$\mathcal{D}$之后剩余的不确定性。成功的学习理想情况下应带来比先验更低的后验熵,这表明数据减少了我们对$\theta$的不确定性。Kullback-Leibler(KL)散度:度量分布之间的差异熵度量单个分布的不确定性,而KL散度则量化一个概率分布$P$与第二个参考概率分布$Q$之间的差异。它通常被解释为使用$Q$来近似$P$时丢失的信息,或是$P$相对于$Q$的相对熵。对于离散分布$P(x)$和$Q(x)$:$$ D_{KL}(P || Q) = \sum_{x \in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} $$对于连续分布$p(x)$和$q(x)$:$$ D_{KL}(p || q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} dx $$KL散度的重要性质:非负性: $D_{KL}(P || Q) \ge 0$,当且仅当$P = Q$时取等号。非对称性: 通常情况下,$D_{KL}(P || Q) \neq D_{KL}(Q || P)$。这意味着它并非真正的距离度量,而是一种有方向的散度。选择哪个分布在前是重要的。这种非对称性具有重要意义。最小化$D_{KL}(P || Q)$会促使$Q$在$P$非零的地方也非零(它试图覆盖$P$)。最小化$D_{KL}(Q || P)$会促使$Q$在$P$为零的地方也为零(它试图被$P$包含)。{"layout": {"title": "两个正态分布之间的KL散度", "xaxis": {"title": "x"}, "yaxis": {"title": "密度"}, "legend": {"x": 0.6, "y": 0.95}, "width": 600, "height": 400}, "data": [{"x": [-4, -3.5, -3, -2.5, -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4], "y": [0.0044, 0.0175, 0.054, 0.1295, 0.242, 0.3521, 0.3989, 0.3521, 0.242, 0.1295, 0.054, 0.0175, 0.0044, 0.0009, 0.0001, 0, 0], "type": "scatter", "mode": "lines", "name": "P(x) ~ N(0, 1)", "line": {"color": "#339af0"}}, {"x": [-4, -3.5, -3, -2.5, -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2, 2.5, 3, 3.5, 4], "y": [0.0175, 0.041, 0.0821, 0.1383, 0.1895, 0.2226, 0.2226, 0.1895, 0.1383, 0.0821, 0.041, 0.0175, 0.0063, 0.0019, 0.0005, 0.0001, 0], "type": "scatter", "mode": "lines", "name": "Q(x) ~ N( -1, 1.5^2)", "line": {"color": "#f06595"}}]}KL散度$D_{KL}(P || Q)$量化了分布P(蓝色)与分布Q(粉色)之间的差异。它度量了当真实分布是P时使用Q的低效性。请注意其非对称性,$D_{KL}(P || Q)$将产生与$D_{KL}(Q || P)$不同的值。在贝叶斯推断中的作用当处理前面提到的计算难题,特别是难以处理的后验分布$P(\theta | \mathcal{D})$时,信息论与贝叶斯方法之间的关联变得尤为明显。变分推断(VI): 这是KL散度的一个主要应用场景。变分推断将贝叶斯推断重构为一个优化问题。我们寻求一个来自易于处理的分布族(例如,高斯分布)的近似$Q(\theta)$,使其“最接近”真实的、通常难以处理的后验$P(\theta | \mathcal{D})$。“最接近”通常使用KL散度来度量。具体而言,变分推断旨在最小化$D_{KL}(Q(\theta) || P(\theta | \mathcal{D}))$。直接最小化它仍然很困难,因为它涉及到未知的后验。然而,最小化此KL散度等价于最大化一个称为证据下界(ELBO)的量:$$ \text{ELBO}(Q) = \mathbb{E}{Q}[\log P(\mathcal{D}, \theta)] - \mathbb{E}{Q}[\log Q(\theta)] $$最大化ELBO会使$Q(\theta)$在KL意义上接近真实的后验$P(\theta | \mathcal{D})$。我们将在第3章讨论变分推断方法时详细讨论这种关系。模型比较与选择: 虽然正式的贝叶斯模型比较通常依赖于边际似然$P(\mathcal{D})$或贝叶斯因子,但诸如AIC(赤池信息准则)和DIC(偏差信息准则)等信息准则与KL散度有关联。它们提供了估计模型预期样本外预测准确性的方法,暗含了对模型拟合与复杂度之间平衡的考量,这些思想与信息增益和分布散度相关。总而言之,熵提供了一种量化我们贝叶斯模型先验和后验中不确定性的方法。KL散度提供了一个比较概率分布的基本工具,它构成了诸如变分推断等近似方法的数学基础,这些方法对于将贝叶斯方法应用于后验精确计算不可行的复杂、高维问题是不可或缺的。因此,理解这些信息论度量不仅仅是理论练习;它对于实现和解释许多高级贝叶斯方法是基础。