贝叶斯定理中的先验分布 $P(\theta)$ 代表观测数据 $\mathcal{D}$ 前对参数的看法。选择这个先验是贝叶斯建模的一个基本步骤,其方法可以是从编码特定的领域知识到试图保持中立。这种选择会影响由此产生的后验分布 $P(\theta | \mathcal{D})$,有时影响不大,有时影响显著,特别是在数据有限或维度较高时。引导先验选择有不同的理念。主观先验:编码信念主观先验纳入关于参数 $\theta$ 的特定、预先存在的信息或看法。这些信息可能来源于之前的实验、专家意见或被建模系统的物理限制。例如,如果建模一枚硬币正面朝上的概率 $\phi$,先验知识可能提示硬币很可能是公平的。一个主观先验可以是 Beta(10, 10) 这样、中心在 0.5 且方差相对较小的 Beta 分布。这个先验在 $\phi=0.5$ 附近分配更高的概率密度,而在 0 或 1 等极端值附近分配更低的密度。优点:允许正式纳入有价值的外部知识,可能带来更准确或高效的推断,特别是对于小型数据集。使假设明确。先验分布清晰记录了初始看法。缺点:如果先验看法不正确或相对于数据中的信息而言过于强烈,可能引入不必要的偏差。需要仔细论证。记录选择特定主观先验的原因对于结果的可重复性和评价十分重要。可能存在争议,因为不同专家可能有不同的先验看法。在更高级的场合,主观先验常采用分层方式构建,使参数能够相互影响,这一点我们将在后面提及。核心在于透明度:说明你的先验以及其背后的理由。客观先验:旨在中立客观先验,有时被称为无信息先验或参考先验,试图将先验对后验分布的影响降到最低。目标是尽可能地“让数据说话”。这不表示先验没有影响,而是指其影响根据某些正式准则被最小化了。常见方法包括:均匀先验: 在参数的可能范围内分配相等的概率密度。对于一个限制在 $a$ 和 $b$ 之间的参数,当 $\theta \in [a, b]$ 时,$P(\theta) \propto 1$。然而,在非线性参数变换下,均匀性不会保持(例如,标准差 $\sigma$ 上的均匀先验不表示方差 $\sigma^2$ 上的均匀先验)。此外,在无界范围内(例如,回归系数的 $(-\infty, \infty)$)分配均匀先验会导致非正则先验(它不积分到1)。尽管非正则先验有时可以导致正则后验,但它们需要谨慎处理。杰弗里斯先验: 源自费雪信息 $I(\theta)$,定义为 $P(\theta) \propto \sqrt{\det I(\theta)}$。费雪信息衡量数据提供了多少关于参数的信息。杰弗里斯先验具有在参数变换下不变的理想属性。例如,伯努利试验的成功概率 $p$ 的杰弗里斯先验是 Beta(1/2, 1/2),它是非均匀的。对于一个位置参数(如具有已知方差的正态分布的均值 $\mu$),它是均匀的。对于一个尺度参数(如具有已知均值的正态分布的标准差 $\sigma$),$P(\sigma) \propto 1/\sigma$。参考先验: 一种信息论方法,旨在最大化先验和后验之间的预期Kullback-Leibler散度。这寻求一种能使数据提供最大可能信息增益的先验。参考先验对于单参数模型通常与杰弗里斯先验一致,但在多参数情况下可能不同,有时能处理杰弗里斯先验产生不理想行为的问题。优点:当主观信息不可用或有意排除时,提供了一种标准化选择。具有理想的不变性(特别是杰弗里斯先验和参考先验)。缺点:可能难以推导,特别是对于复杂的多参数模型。可能导致非正则先验,这可能在模型比较中引发问题(例如,计算贝叶斯因子)或导致非正则后验。“无信息”的理念在某种程度上是虚幻的;即使是平坦先验也编码了一些信息(例如,范围内所有值可能性均等)。在高维度中可能出现悖论。弱信息先验:一种实用折衷实践中,纯粹的主观先验或纯粹的客观先验并非总是理想选择。弱信息先验提供了一个务实的中间地带。它们是正则分布(积分到1),但有意选择其影响小于强主观先验。它们提供温和的正则化,有助于稳定计算并防止后验分布取不合理的值,同时在数据包含信息时仍允许似然占据主导地位。可以把弱信息先验看作提供护栏。例如,我们可能不使用在回归系数 $\beta$ 上的平坦先验(它允许任意大的值),而是使用一个以0为中心、标准差相对较大的正态分布,例如 $N(0, 10^2)$。或者是一个自由度较少(例如 $\nu=3$)且尺度适中的学生t分布,它的尾部比正态分布更厚,允许更大的偏离零,同时仍然提供正则化。{ "layout": { "title": "先验分布比较", "xaxis": { "title": "参数值 (θ)", "range": [-15, 15]}, "yaxis": { "title": "概率密度", "range": [0, 0.45]}, "legend": { "yanchor": "top", "y": 0.99, "xanchor": "left", "x": 0.01} }, "data": [ { "x": [-15.0, -14.7, -14.4, -14.1, -13.8, -13.5, -13.2, -12.9, -12.6, -12.3, -12.0, -11.7, -11.4, -11.1, -10.8, -10.5, -10.2, -9.9, -9.6, -9.3, -9.0, -8.7, -8.4, -8.1, -7.8, -7.5, -7.2, -6.9, -6.6, -6.3, -6.0, -5.7, -5.4, -5.1, -4.8, -4.5, -4.2, -3.9, -3.6, -3.3, -3.0, -2.7, -2.4, -2.1, -1.8, -1.5, -1.2, -0.9, -0.6, -0.3, 0.0, 0.3, 0.6, 0.9, 1.2, 1.5, 1.8, 2.1, 2.4, 2.7, 3.0, 3.3, 3.6, 3.9, 4.2, 4.5, 4.8, 5.1, 5.4, 5.7, 6.0, 6.3, 6.6, 6.9, 7.2, 7.5, 7.8, 8.1, 8.4, 8.7, 9.0, 9.3, 9.6, 9.9, 10.2, 10.5, 10.8, 11.1, 11.4, 11.7, 12.0, 12.3, 12.6, 12.9, 13.2, 13.5, 13.8, 14.1, 14.4, 14.7, 15.0], "y": [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0001, 0.0002, 0.0004, 0.0007, 0.0012, 0.002, 0.0031, 0.0047, 0.0069, 0.0098, 0.0136, 0.0184, 0.0244, 0.0317, 0.0404, 0.0508, 0.0629, 0.0769, 0.0925, 0.11, 0.1295, 0.1506, 0.173, 0.1965, 0.2206, 0.2448, 0.2687, 0.2913, 0.3123, 0.3307, 0.3455, 0.3559, 0.3611, 0.3606, 0.3541, 0.3417, 0.3242, 0.3023, 0.277, 0.2495, 0.2206, 0.1915, 0.1632, 0.1365, 0.1119, 0.09, 0.071, 0.0551, 0.042, 0.0315, 0.0233, 0.017, 0.0122, 0.0086, 0.006, 0.0041, 0.0028, 0.0019, 0.0012, 0.0008, 0.0005, 0.0003, 0.0002, 0.0001, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], "type": "scatter", "mode": "lines", "name": "主观/信息丰富 (N(0, 1))", "line": {"color": "#4263eb"}}, { "x": [-15.0, -14.7, -14.4, -14.1, -13.8, -13.5, -13.2, -12.9, -12.6, -12.3, -12.0, -11.7, -11.4, -11.1, -10.8, -10.5, -10.2, -9.9, -9.6, -9.3, -9.0, -8.7, -8.4, -8.1, -7.8, -7.5, -7.2, -6.9, -6.6, -6.3, -6.0, -5.7, -5.4, -5.1, -4.8, -4.5, -4.2, -3.9, -3.6, -3.3, -3.0, -2.7, -2.4, -2.1, -1.8, -1.5, -1.2, -0.9, -0.6, -0.3, 0.0, 0.3, 0.6, 0.9, 1.2, 1.5, 1.8, 2.1, 2.4, 2.7, 3.0, 3.3, 3.6, 3.9, 4.2, 4.5, 4.8, 5.1, 5.4, 5.7, 6.0, 6.3, 6.6, 6.9, 7.2, 7.5, 7.8, 8.1, 8.4, 8.7, 9.0, 9.3, 9.6, 9.9, 10.2, 10.5, 10.8, 11.1, 11.4, 11.7, 12.0, 12.3, 12.6, 12.9, 13.2, 13.5, 13.8, 14.1, 14.4, 14.7, 15.0], "y": [0.0013, 0.0016, 0.0019, 0.0023, 0.0027, 0.0032, 0.0037, 0.0044, 0.0051, 0.0059, 0.0068, 0.0078, 0.009, 0.0102, 0.0117, 0.0132, 0.0149, 0.0168, 0.0188, 0.021, 0.0234, 0.026, 0.0287, 0.0317, 0.0348, 0.0382, 0.0417, 0.0454, 0.0493, 0.0534, 0.0576, 0.0619, 0.0664, 0.0709, 0.0755, 0.0802, 0.0848, 0.0894, 0.094, 0.0985, 0.1028, 0.1069, 0.1108, 0.1143, 0.1175, 0.1203, 0.1227, 0.1247, 0.1262, 0.1272, 0.1277, 0.1276, 0.127, 0.1258, 0.124, 0.1218, 0.1191, 0.116, 0.1125, 0.1087, 0.1046, 0.1003, 0.0957, 0.091, 0.0862, 0.0813, 0.0763, 0.0714, 0.0665, 0.0617, 0.0571, 0.0526, 0.0483, 0.0442, 0.0403, 0.0366, 0.0331, 0.0299, 0.0269, 0.0241, 0.0216, 0.0193, 0.0172, 0.0153, 0.0136, 0.0121, 0.0107, 0.0094, 0.0083, 0.0073, 0.0064, 0.0056, 0.0049, 0.0043, 0.0037, 0.0032, 0.0028, 0.0024, 0.002], "type": "scatter", "mode": "lines", "name": "弱信息 (N(0, 9))", "line": {"color": "#12b886"}}, { "x": [-15.0, -14.7, -14.4, -14.1, -13.8, -13.5, -13.2, -12.9, -12.6, -12.3, -12.0, -11.7, -11.4, -11.1, -10.8, -10.5, -10.2, -9.9, -9.6, -9.3, -9.0, -8.7, -8.4, -8.1, -7.8, -7.5, -7.2, -6.9, -6.6, -6.3, -6.0, -5.7, -5.4, -5.1, -4.8, -4.5, -4.2, -3.9, -3.6, -3.3, -3.0, -2.7, -2.4, -2.1, -1.8, -1.5, -1.2, -0.9, -0.6, -0.3, 0.0, 0.3, 0.6, 0.9, 1.2, 1.5, 1.8, 2.1, 2.4, 2.7, 3.0, 3.3, 3.6, 3.9, 4.2, 4.5, 4.8, 5.1, 5.4, 5.7, 6.0, 6.3, 6.6, 6.9, 7.2, 7.5, 7.8, 8.1, 8.4, 8.7, 9.0, 9.3, 9.6, 9.9, 10.2, 10.5, 10.8, 11.1, 11.4, 11.7, 12.0, 12.3, 12.6, 12.9, 13.2, 13.5, 13.8, 14.1, 14.4, 14.7, 15.0], "y": [0.013, 0.0135, 0.0141, 0.0146, 0.0152, 0.0158, 0.0164, 0.017, 0.0176, 0.0182, 0.0188, 0.0194, 0.02, 0.0206, 0.0212, 0.0218, 0.0224, 0.023, 0.0236, 0.0242, 0.0248, 0.0254, 0.0259, 0.0265, 0.027, 0.0276, 0.0281, 0.0286, 0.0291, 0.0296, 0.03, 0.0305, 0.0309, 0.0313, 0.0317, 0.0321, 0.0325, 0.0328, 0.0331, 0.0334, 0.0337, 0.034, 0.0343, 0.0345, 0.0348, 0.035, 0.0352, 0.0354, 0.0356, 0.0357, 0.0358, 0.0359, 0.0359, 0.0359, 0.0359, 0.0359, 0.0358, 0.0357, 0.0356, 0.0355, 0.0353, 0.0351, 0.0349, 0.0347, 0.0344, 0.0341, 0.0338, 0.0335, 0.0332, 0.0328, 0.0324, 0.032, 0.0316, 0.0312, 0.0307, 0.0303, 0.0298, 0.0293, 0.0288, 0.0283, 0.0278, 0.0273, 0.0267, 0.0262, 0.0256, 0.0251, 0.0245, 0.024, 0.0234, 0.0228, 0.0222, 0.0216, 0.021, 0.0204, 0.0198, 0.0192, 0.0186, 0.018, 0.0174], "type": "scatter", "mode": "lines", "name": "接近无信息 (N(0, 100))", "line": {"color": "#ced4da"}} ] }以零为中心、方差递增的正态分布(1、9、100)。蓝色曲线表示信息更丰富的先验,将看法集中在零附近。绿色曲线是弱信息先验,允许更广泛的值范围。灰色曲线将概率分布得更稀疏,接近无信息(局部均匀)的状态,尽管它仍然是一个正则分布。优点:在现代贝叶斯实践中,当没有强主观先验可用或不希望使用时,这类先验普遍受到偏爱。提供正则化,提高模型稳定性并防止极端后验估计,特别是对于稀疏数据或复杂模型。是正则分布,避免了与非正则先验相关的问题。缺点:仍然需要进行选择(例如,弱先验的尺度)。尽管不如强主观先验敏感,但这些选择仍然可能产生影响。“弱信息”是相对的;在一种情况下被认为是弱的先验在另一种情况下可能相当强。先验敏感性分析因为先验的选择会影响后验分布,所以进行先验敏感性分析是一种好的做法。这包括使用几种不同且合理的先验来拟合模型(例如,略微不同的主观先验,或改变弱信息先验的尺度),并考察重要的后验量(如参数估计或预测)如何变化。如果结果对先验的合理变化高度敏感,这表明数据对于模型的该方面信息不足,并且先验扮演着重要角色。如果结果在不同先验选择下保持稳定,这种分析会增强对结论的信心。总之,选择先验 $P(\theta)$ 是贝叶斯建模的一个组成部分。主观、客观和弱信息先验之间的选择取决于可用的领域知识、分析目的以及计算稳定性等实际考量。所选先验的透明度和敏感性分析是严谨贝叶斯工作流程的重要组成部分,特别是对于我们将在本课程中遇到的高级模型。