趋近智
标准神经网络学习一组单一的最佳参数,通常是权重和偏置,这些参数通常通过使用梯度下降等方法最小化损失函数来得到。这些代表了参数的庞大集合中的点估计。虽然在预测方面有效,但这种方法本身不能捕捉与这些参数值或所得预测相关的不确定性。如果训练数据有限或有噪声,多组不同的权重可能以几乎同样好的方式解释数据。标准网络只选择其中一组,可能导致其预测过于自信。
贝叶斯神经网络(BNNs)通过采纳贝叶斯思想来解决这个问题:将网络参数(权重 w 和偏置,统称为 w)视为随机变量,而不是要优化的固定值。在BNN中,我们的目标不是找到一组单一的最佳权重 w^,而是根据观测数据 D 推断权重的完整后验分布:p(w∣D)。这个后验分布反映了我们看到数据后对合理参数值的信念,本质上量化了与之相关的不确定性。
任何贝叶斯模型的基础部分是先验分布,p(w)。这个分布编码了我们在观测任何数据之前对参数的信念。在BNN的背景下,先验分布设定在网络中的所有权重和偏置之上。
对权重有信念意味着什么?通常,我们没有关于特定权重值的强烈先验信息。一种常见且实用的选择是使用一个简单、数学上方便且能反映一般假设的先验。一个非常常见的选择是为每个权重 wi 使用一个以零为中心的独立高斯先验:
wi∼N(0,σp2)这意味着整个权重向量 w 的先验是:
p(w)=i∏N(wi∣0,σp2)这里,σp2 是先验方差,一个超参数。这个先验表示一种信念,即权重可能较小并集中在零附近。σp2 的较大值对应于“较弱”的先验,允许权重偏离零更远,而较小值则施加更强的约束,将权重推向零。
选择零均值高斯先验与标准神经网络训练中使用的L2正则化(权重衰减)有直接关系。回想一下,L2正则化会在损失函数中添加一个惩罚项 λ∑iwi2。在高斯先验下最大化后验概率(MAP估计)等同于最小化带有L2惩罚项的损失函数,其中正则化强度 λ 与先验方差 σp2 有关。然而,完整的贝叶斯方法更进一步;我们的目标是描述整个后验分布 p(w∣D),而不仅仅是找到它的众数。先验影响着这个完整分布的形状。
其他先验也是可行的:
目前,由于其简单性以及与权重衰减的关联,我们通常会假设一个简单的高斯先验。
似然函数 p(D∣w) 描述了在给定网络参数 w 的特定设置下观测到数据集 D={(xn,yn)}n=1N 的概率。这与标准神经网络中的情况相同,由网络架构和假定的输出分布决定。
回归: 如果我们假设目标变量 y 遵循以网络输出 f(x;w) 为中心、噪声方差为 σ2 的高斯分布,那么单个数据点 (xn,yn) 的似然是 N(yn∣f(xn;w),σ2)。整个数据集的似然(假设独立性)是乘积:
p(D∣w)=n=1∏NN(yn∣f(xn;w),σ2)在这种情况下,最小化负对数似然 −logp(D∣w) 对应于最小化均方误差(MSE)损失,再加上一个与噪声方差 σ2 相关的项。
分类: 对于分类任务,网络输出通常代表概率(例如,通过softmax层)。如果 yn 是独热编码标签,单个数据点的似然通常使用分类分布建模,其中概率由网络输出 f(xn;w) 给出。
p(yn∣xn,w)=分类(yn∣f(xn;w))在这里,最小化负对数似然 −logp(D∣w) 对应于最小化交叉熵损失。
似然的选择将抽象的网络参数 w 与实际数据 D 联系起来。
在定义了先验 p(w) 和似然 p(D∣w) 后,我们可以使用贝叶斯定理将它们结合起来,得到权重的后验分布:
p(w∣D)=p(D)p(D∣w)p(w)下图对比了标准方法和贝叶斯方法:
标准神经网络学习权重的点估计与贝叶斯神经网络学习权重的后验分布的比较。
BNN的主要难点在于后验 p(w∣D) 的计算。对于拥有数百万参数的深度神经网络,边际似然 p(D) 所需的积分是难以计算的。此外,后验分布本身是高维且复杂的,使得直接计算变得不可能。
因此,我们必须依赖近似方法,而不是计算精确的后验。本章后续部分将介绍解决此挑战的两种主要技术类别:马尔可夫链蒙特卡洛(MCMC)方法和变分推断(VI)。这些方法使我们能够从后验分布中抽取样本或找到其近似值,从而能够在深度学习任务中使用贝叶斯框架,特别是用于量化不确定性。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造