条件概率 P(A∣B) 描述了在事件 B 已经发生的情况下,事件 A 发生的可能性。贝叶斯定理是一个与此概念直接相关且非常实用的结论。
使用贝叶斯定理更新信念
想象你对某件事有一个最初的看法(一个假设),然后你收到一些新的数据或证据。这些新证据应该如何改变你的看法?贝叶斯定理提供了一个正式的方法来做到这一点:根据新证据更新你的看法。
考虑一个常见的情形:医学检测。
- 设 D 为一个人患有某种疾病的事件。
- 设 T 为该人疾病检测结果为阳性的事件。
我们通常会知道如下信息:
- P(T∣D):如果你确实患有这种疾病,检测结果为阳性的概率(检测的灵敏度)。
- P(T∣非 D):即使你没有患病,检测结果仍为阳性的概率(假阳性)。
- P(D):人群中一个人在进行检测之前患有这种疾病的总概率(基础比率或流行率)。这是我们最初的看法,或者称为先验概率。
但在得到检测结果后,我们通常想知道的是:
- P(D∣T):在检测结果为阳性的情况下,你确实患有疾病的概率。
注意到区别了吗?我们通常知道 P(证据∣假设),但想知道的是 P(假设∣证据)。贝叶斯定理使我们能够计算这种“翻转”的条件概率。
公式
贝叶斯定理的表述如下:
P(A∣B)=P(B)P(B∣A)×P(A)
让我们使用我们的医学检测例子(其中 A=D,B=T)来分解每一部分:
P(D∣T)=P(T)P(T∣D)×P(D)
- P(D∣T):这是后验概率。它是在考虑了证据(检测结果为阳性,T)之后,患有疾病(D)的更新后的概率。这是我们希望计算的值。
- P(T∣D):这是似然。它是在假设(患有疾病,D)为真的情况下,观测到证据(阳性检测结果,T)的概率。这通常从检测规范(灵敏度)中得知。
- P(D):这是先验概率。它是我们在看到证据之前,对假设(患有疾病,D)的最初看法。这是疾病在人群中的流行率。
- P(T):这是证据的概率。它是检测结果为阳性(T)的总概率,无论该人是否患病。它作为归一化常数,以确保后验概率是一个有效的概率(介于 0 和 1 之间)。
计算证据的概率 P(B)
我们如何找到 P(T),即检测结果为阳性的总概率?一个人可以通过两种方式检测结果为阳性:他们患有疾病并且检测结果为阳性,或者他们没有患病但检测结果为阳性(假阳性)。我们使用全概率定律:
P(T)=P(T∩D)+P(T∩非 D)
使用条件概率的定义(P(A∩B)=P(A∣B)P(B)),我们可以将其改写为:
P(T)=P(T∣D)P(D)+P(T∣非 D)P(非 D)
因此,完整的贝叶斯定理公式通常看起来是这样的:
P(D∣T)=P(T∣D)P(D)+P(T∣非 D)P(非 D)P(T∣D)P(D)
这看起来更复杂,但请记住,分母只是证据(阳性检测结果)可能出现的所有情况的概率之和。
一个简单计算例子
让我们为医学检测例子带入一些数字:
- 假设某种疾病影响 1% 的人口。因此,P(D)=0.01。这意味着 P(非 D)=1−0.01=0.99。
- 该检测正确识别出 95% 的患病者。因此,P(T∣D)=0.95。(灵敏度)
- 该检测错误地显示 5% 未患病的人为阳性结果。因此,P(T∣非 D)=0.05。(假阳性率)
现在,如果有人检测结果为阳性。他们确实患有疾病的概率 P(D∣T) 是多少?
让我们使用公式:
- 分子:P(T∣D)P(D)=0.95×0.01=0.0095
- 分母:
- P(T∣D)P(D)=0.95×0.01=0.0095(真阳性)
- P(T∣非 D)P(非 D)=0.05×0.99=0.0495(假阳性)
- P(T)=0.0095+0.0495=0.0590
- 后验概率:
P(D∣T)=0.05900.0095≈0.161
因此,即使检测结果为阳性,实际患病的概率也只有约 16.1%!这可能看起来出乎意料地低,但考虑到较低的先验概率(只有 1% 的人患病)和假阳性的可能性,这是有道理的。证据(阳性检测结果)确实显著增加了我们的看法(从先验的 1% 增加到后验的 16.1%),但在这种情况下,假阳性的可能性与真阳性的可能性相比仍然很大。
此图显示了关于患病的先验信念,结合阳性检测的新证据,如何使用贝叶斯定理得出更新后的后验信念。该计算包含了证据在不同情况下的似然性。
与机器学习的关联
贝叶斯定理不仅仅是一个公式;它是不确定性下推理的基本思想。在机器学习中:
- 分类模型:一些分类算法(如你稍后可能会遇到的朴素贝叶斯分类器)直接建立在贝叶斯定理的应用之上。它们计算给定观测到的特征(如电子邮件中的词语)下,一个类别(如“垃圾邮件”或“非垃圾邮件”)的概率。
- 模型更新:根据数据更新看法的核心思想反映了许多机器学习模型学习的方式。它们从一些初始参数(先验看法)开始,并随着处理更多数据(证据)而调整它们,以获得更好的参数(后验看法)。
- 贝叶斯方法:统计学和机器学习中有一个被称为贝叶斯方法的完整分支,它广泛使用这个定理来对预测和参数中的不确定性进行建模。
虽然我们不会在本入门课程中深入复杂的贝叶斯建模,但理解贝叶斯定理的基本原理是有益的。它将随着你收集更多信息而调整你的理解这一直观过程形式化,这是人类和机器从数据中学习的核心。