趋近智
标准神经网络 (neural network)学习一组单一的最佳参数 (parameter),通常是权重 (weight)和偏置 (bias),这些参数通常通过使用梯度下降 (gradient descent)等方法最小化损失函数 (loss function)来得到。这些代表了参数的庞大集合中的点估计。虽然在预测方面有效,但这种方法本身不能捕捉与这些参数值或所得预测相关的不确定性。如果训练数据有限或有噪声,多组不同的权重可能以几乎同样好的方式解释数据。标准网络只选择其中一组,可能导致其预测过于自信。
贝叶斯神经网络(BNNs)通过采纳贝叶斯思想来解决这个问题:将网络参数(权重 和偏置,统称为 )视为随机变量,而不是要优化的固定值。在BNN中,我们的目标不是找到一组单一的最佳权重 ,而是根据观测数据 推断权重的完整后验分布:。这个后验分布反映了我们看到数据后对合理参数值的信念,本质上量化 (quantization)了与之相关的不确定性。
任何贝叶斯模型的基础部分是先验分布,。这个分布编码了我们在观测任何数据之前对参数 (parameter)的信念。在BNN的背景下,先验分布设定在网络中的所有权重 (weight)和偏置 (bias)之上。
对权重有信念意味着什么?通常,我们没有关于特定权重值的强烈先验信息。一种常见且实用的选择是使用一个简单、数学上方便且能反映一般假设的先验。一个非常常见的选择是为每个权重 使用一个以零为中心的独立高斯先验:
这意味着整个权重向量 (vector) 的先验是:
这里, 是先验方差,一个超参数 (hyperparameter)。这个先验表示一种信念,即权重可能较小并集中在零附近。 的较大值对应于“较弱”的先验,允许权重偏离零更远,而较小值则施加更强的约束,将权重推向零。
选择零均值高斯先验与标准神经网络 (neural network)训练中使用的L2正则化 (regularization)(权重衰减)有直接关系。回想一下,L2正则化会在损失函数 (loss function)中添加一个惩罚项 。在高斯先验下最大化后验概率(MAP估计)等同于最小化带有L2惩罚项的损失函数,其中正则化强度 与先验方差 有关。然而,完整的贝叶斯方法更进一步;我们的目标是描述整个后验分布 ,而不仅仅是找到它的众数。先验影响着这个完整分布的形状。
其他先验也是可行的:
目前,由于其简单性以及与权重衰减的关联,我们通常会假设一个简单的高斯先验。
似然函数 描述了在给定网络参数 (parameter) 的特定设置下观测到数据集 的概率。这与标准神经网络 (neural network)中的情况相同,由网络架构和假定的输出分布决定。
回归: 如果我们假设目标变量 遵循以网络输出 为中心、噪声方差为 的高斯分布,那么单个数据点 的似然是 。整个数据集的似然(假设独立性)是乘积:
在这种情况下,最小化负对数似然 对应于最小化均方误差(MSE)损失,再加上一个与噪声方差 相关的项。
分类: 对于分类任务,网络输出通常代表概率(例如,通过softmax层)。如果 是独热编码标签,单个数据点的似然通常使用分类分布建模,其中概率由网络输出 给出。
在这里,最小化负对数似然 对应于最小化交叉熵损失。
似然的选择将抽象的网络参数 与实际数据 联系起来。
在定义了先验 和似然 后,我们可以使用贝叶斯定理将它们结合起来,得到权重 (weight)的后验分布:
下图对比了标准方法和贝叶斯方法:
标准神经网络 (neural network)学习权重的点估计与贝叶斯神经网络学习权重的后验分布的比较。
BNN的主要难点在于后验 的计算。对于拥有数百万参数 (parameter)的深度神经网络,边际似然 所需的积分是难以计算的。此外,后验分布本身是高维且复杂的,使得直接计算变得不可能。
因此,我们必须依赖近似方法,而不是计算精确的后验。本章后续部分将介绍解决此挑战的两种主要技术类别:马尔可夫链蒙特卡洛(MCMC)方法和变分推断(VI)。这些方法使我们能够从后验分布中抽取样本或找到其近似值,从而能够在深度学习 (deep learning)任务中使用贝叶斯框架,特别是用于量化 (quantization)不确定性。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•