趋近智
贝叶斯定理中的先验分布 P(θ) 代表观测数据 D 前对参数的看法。选择这个先验是贝叶斯建模的一个基本步骤,其方法可以是从编码特定的领域知识到试图保持中立。这种选择会影响由此产生的后验分布 P(θ∣D),有时影响不大,有时影响显著,特别是在数据有限或维度较高时。引导先验选择有不同的理念。
主观先验纳入关于参数 θ 的特定、预先存在的信息或看法。这些信息可能来源于之前的实验、专家意见或被建模系统的物理限制。
例如,如果建模一枚硬币正面朝上的概率 ϕ,先验知识可能提示硬币很可能是公平的。一个主观先验可以是 Beta(10, 10) 这样、中心在 0.5 且方差相对较小的 Beta 分布。这个先验在 ϕ=0.5 附近分配更高的概率密度,而在 0 或 1 等极端值附近分配更低的密度。
优点:
缺点:
在更高级的场合,主观先验常采用分层方式构建,使参数能够相互影响,这一点我们将在后面提及。核心在于透明度:说明你的先验以及其背后的理由。
客观先验,有时被称为无信息先验或参考先验,试图将先验对后验分布的影响降到最低。目标是尽可能地“让数据说话”。这不表示先验没有影响,而是指其影响根据某些正式准则被最小化了。
常见方法包括:
均匀先验: 在参数的可能范围内分配相等的概率密度。对于一个限制在 a 和 b 之间的参数,当 θ∈[a,b] 时,P(θ)∝1。然而,在非线性参数变换下,均匀性不会保持(例如,标准差 σ 上的均匀先验不表示方差 σ2 上的均匀先验)。此外,在无界范围内(例如,回归系数的 (−∞,∞))分配均匀先验会导致非正则先验(它不积分到1)。尽管非正则先验有时可以导致正则后验,但它们需要谨慎处理。
杰弗里斯先验: 源自费雪信息 I(θ),定义为 P(θ)∝detI(θ)。费雪信息衡量数据提供了多少关于参数的信息。杰弗里斯先验具有在参数变换下不变的理想属性。例如,伯努利试验的成功概率 p 的杰弗里斯先验是 Beta(1/2, 1/2),它是非均匀的。对于一个位置参数(如具有已知方差的正态分布的均值 μ),它是均匀的。对于一个尺度参数(如具有已知均值的正态分布的标准差 σ),P(σ)∝1/σ。
参考先验: 一种信息论方法,旨在最大化先验和后验之间的预期Kullback-Leibler散度。这寻求一种能使数据提供最大可能信息增益的先验。参考先验对于单参数模型通常与杰弗里斯先验一致,但在多参数情况下可能不同,有时能处理杰弗里斯先验产生不理想行为的问题。
优点:
缺点:
实践中,纯粹的主观先验或纯粹的客观先验并非总是理想选择。弱信息先验提供了一个务实的中间地带。它们是正则分布(积分到1),但有意选择其影响小于强主观先验。它们提供温和的正则化,有助于稳定计算并防止后验分布取不合理的值,同时在数据包含信息时仍允许似然占据主导地位。
可以把弱信息先验看作提供护栏。例如,我们可能不使用在回归系数 β 上的平坦先验(它允许任意大的值),而是使用一个以0为中心、标准差相对较大的正态分布,例如 N(0,102)。或者是一个自由度较少(例如 ν=3)且尺度适中的学生t分布,它的尾部比正态分布更厚,允许更大的偏离零,同时仍然提供正则化。
以零为中心、方差递增的正态分布(1、9、100)。蓝色曲线表示信息更丰富的先验,将看法集中在零附近。绿色曲线是弱信息先验,允许更广泛的值范围。灰色曲线将概率分布得更稀疏,接近无信息(局部均匀)的状态,尽管它仍然是一个正则分布。
优点:
缺点:
因为先验的选择会影响后验分布,所以进行先验敏感性分析是一种好的做法。这包括使用几种不同且合理的先验来拟合模型(例如,略微不同的主观先验,或改变弱信息先验的尺度),并考察重要的后验量(如参数估计或预测)如何变化。如果结果对先验的合理变化高度敏感,这表明数据对于模型的该方面信息不足,并且先验扮演着重要角色。如果结果在不同先验选择下保持稳定,这种分析会增强对结论的信心。
总之,选择先验 P(θ) 是贝叶斯建模的一个组成部分。主观、客观和弱信息先验之间的选择取决于可用的领域知识、分析目的以及计算稳定性等实际考量。所选先验的透明度和敏感性分析是严谨贝叶斯工作流程的重要组成部分,特别是对于我们将在本课程中遇到的高级模型。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造