趋近智
深度学习模型,通常使用随机梯度下降等优化方法进行训练,在从图像识别到自然语言处理等不同方面取得了显著表现。标准方法通常会得到一组最优参数(权重和偏置),常表示为 wMAP(最大后验)或 wMLE(最大似然)。这些点估计值使模型能够进行预测,但它们本身缺乏一种机制来以合理的方式表达对这些预测的置信度或不确定性。
考虑一个用于医学图像分析的神经网络。一个标准网络可能会为一个特定诊断输出高概率。但该预测的可靠性如何?高概率是因为图像中有压倒性的证据,还是模型仅仅是进入了输入空间中训练不足的区域,从而导致了缺乏依据的推断?一个只提供点估计预测的模型无法区分这些情况。这一局限性在医疗保健、自主系统或金融建模等高风险实际使用场景中尤其值得关注,在这些场景中,了解模型的确定性与预测本身同样重要。
标准深度学习模型通常校准不佳。这意味着它们输出的概率不能准确反映正确的真实可能性。模型可能对一个分类任务赋予99%的概率,但在做出如此自信的预测时,其错误频率却远高于1%。这种过度自信直接来源于仅为模型参数 w 找到一个“最佳”设置。如果不考虑其他也能很好地解释数据的参数设置,模型就无法表现出自身的无知。
此外,依赖于单个点估计 w 忽略了训练数据 D 关于合理参数值所提供的信息的丰富性。贝叶斯观点不寻求单个最佳 w,而是旨在描述整个后验分布 p(w∣D)。该分布包含所有与观测数据一致的参数值,并根据其后验概率进行加权。
贝叶斯深度学习提供了一种正式方法来量化预测不确定性,这种不确定性可以分为两种基本类型:
此图说明了机器学习预测中不确定性的两个主要来源。偶然不确定性产生于数据生成过程本身的固有随机性或噪声,而认知不确定性源于模型的局限性或可用训练数据的有限性。贝叶斯深度学习旨在明确地对这两种类型进行建模和量化。
区分这些不确定性非常重要。高偶然不确定性暗示了预测的固有局限性,而高认知不确定性则表明模型不确定,并且可能通过更多数据或改进来提升,或者输入远离训练分布(分布外检测)。标准深度学习模型将这些来源混淆或完全忽略。
深度学习中用于防止过拟合的常见技术,例如L1/L2正则化(权重衰减)和dropout,通常可以解释为贝叶斯推断的近似形式。例如:
贝叶斯深度学习明确了这种联系。通过在网络参数上定义先验分布 p(w),我们以合理的方式融入先验信念或施加约束(如稀疏性或平滑性)。这种贝叶斯形式的正则化自然地带来更不容易过拟合的模型,并且有时可以更好地泛化,尤其是在训练数据有限的情况下。先验有效地传递了信息,可能提高数据效率。
将贝叶斯方法与深度学习结合,相比标准方法具有几个引人注目的优势:
虽然标准深度学习擅长发现复杂的模式,但贝叶斯深度学习通过增加一个关于这些模式可靠性的重要自我认知层来补充这一点。然而,对于复杂的、高维神经网络,获取完整的后验分布 p(w∣D) 带来了显著的计算难题。接下来的章节将研究高级推断技术,特别是MCMC和变分推断,这些技术旨在克服这些难题并使贝叶斯深度学习变得实用。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造