条件概率 $P(A|B)$ 描述了在事件 B 已经发生的情况下,事件 A 发生的可能性。贝叶斯定理是一个与此概念直接相关且非常实用的结论。使用贝叶斯定理更新信念想象你对某件事有一个最初的看法(一个假设),然后你收到一些新的数据或证据。这些新证据应该如何改变你的看法?贝叶斯定理提供了一个正式的方法来做到这一点:根据新证据更新你的看法。考虑一个常见的情形:医学检测。设 $D$ 为一个人患有某种疾病的事件。设 $T$ 为该人疾病检测结果为阳性的事件。我们通常会知道如下信息:$P(T|D)$:如果你确实患有这种疾病,检测结果为阳性的概率(检测的灵敏度)。$P(T|\text{非 } D)$:即使你没有患病,检测结果仍为阳性的概率(假阳性)。$P(D)$:人群中一个人在进行检测之前患有这种疾病的总概率(基础比率或流行率)。这是我们最初的看法,或者称为先验概率。但在得到检测结果后,我们通常想知道的是:$P(D|T)$:在检测结果为阳性的情况下,你确实患有疾病的概率。注意到区别了吗?我们通常知道 $P(\text{证据} | \text{假设})$,但想知道的是 $P(\text{假设} | \text{证据})$。贝叶斯定理使我们能够计算这种“翻转”的条件概率。公式贝叶斯定理的表述如下:$$ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} $$让我们使用我们的医学检测例子(其中 $A=D$,$B=T$)来分解每一部分:$$ P(D|T) = \frac{P(T|D) \times P(D)}{P(T)} $$$P(D|T)$:这是后验概率。它是在考虑了证据(检测结果为阳性,$T$)之后,患有疾病($D$)的更新后的概率。这是我们希望计算的值。$P(T|D)$:这是似然。它是在假设(患有疾病,$D$)为真的情况下,观测到证据(阳性检测结果,$T$)的概率。这通常从检测规范(灵敏度)中得知。$P(D)$:这是先验概率。它是我们在看到证据之前,对假设(患有疾病,$D$)的最初看法。这是疾病在人群中的流行率。$P(T)$:这是证据的概率。它是检测结果为阳性($T$)的总概率,无论该人是否患病。它作为归一化常数,以确保后验概率是一个有效的概率(介于 0 和 1 之间)。计算证据的概率 $P(B)$我们如何找到 $P(T)$,即检测结果为阳性的总概率?一个人可以通过两种方式检测结果为阳性:他们患有疾病并且检测结果为阳性,或者他们没有患病但检测结果为阳性(假阳性)。我们使用全概率定律:$P(T) = P(T \cap D) + P(T \cap \text{非 } D)$使用条件概率的定义($P(A \cap B) = P(A|B)P(B)$),我们可以将其改写为:$P(T) = P(T|D)P(D) + P(T|\text{非 } D)P(\text{非 } D)$因此,完整的贝叶斯定理公式通常看起来是这样的:$$ P(D|T) = \frac{P(T|D) P(D)}{P(T|D)P(D) + P(T|\text{非 } D)P(\text{非 } D)} $$这看起来更复杂,但请记住,分母只是证据(阳性检测结果)可能出现的所有情况的概率之和。一个简单计算例子让我们为医学检测例子带入一些数字:假设某种疾病影响 1% 的人口。因此,$P(D) = 0.01$。这意味着 $P(\text{非 } D) = 1 - 0.01 = 0.99$。该检测正确识别出 95% 的患病者。因此,$P(T|D) = 0.95$。(灵敏度)该检测错误地显示 5% 未患病的人为阳性结果。因此,$P(T|\text{非 } D) = 0.05$。(假阳性率)现在,如果有人检测结果为阳性。他们确实患有疾病的概率 $P(D|T)$ 是多少?让我们使用公式:分子:$P(T|D) P(D) = 0.95 \times 0.01 = 0.0095$分母:$P(T|D)P(D) = 0.95 \times 0.01 = 0.0095$(真阳性)$P(T|\text{非 } D)P(\text{非 } D) = 0.05 \times 0.99 = 0.0495$(假阳性)$P(T) = 0.0095 + 0.0495 = 0.0590$后验概率: $$ P(D|T) = \frac{0.0095}{0.0590} \approx 0.161 $$因此,即使检测结果为阳性,实际患病的概率也只有约 16.1%!这可能看起来出乎意料地低,但考虑到较低的先验概率(只有 1% 的人患病)和假阳性的可能性,这是有道理的。证据(阳性检测结果)确实显著增加了我们的看法(从先验的 1% 增加到后验的 16.1%),但在这种情况下,假阳性的可能性与真阳性的可能性相比仍然很大。digraph BayesUpdate { rankdir=LR; node [shape=box, style=filled, fillcolor="#e9ecef", fontname="sans-serif"]; edge [fontname="sans-serif"]; Prior [label="先验信念\nP(D) = 1%", fillcolor="#a5d8ff"]; Evidence [label="证据\n检测结果为阳性 (T)", fillcolor="#ffec99"]; Posterior [label="后验信念\nP(D|T) ≈ 16.1%", fillcolor="#b2f2bb"]; Calculation [label="贝叶斯定理\n使用 P(T|D), P(T|非 D)", fillcolor="#ffc9c9", shape=ellipse]; Prior -> Calculation; Evidence -> Calculation; Calculation -> Posterior; }此图显示了关于患病的先验信念,结合阳性检测的新证据,如何使用贝叶斯定理得出更新后的后验信念。该计算包含了证据在不同情况下的似然性。与机器学习的关联贝叶斯定理不仅仅是一个公式;它是不确定性下推理的基本思想。在机器学习中:分类模型:一些分类算法(如你稍后可能会遇到的朴素贝叶斯分类器)直接建立在贝叶斯定理的应用之上。它们计算给定观测到的特征(如电子邮件中的词语)下,一个类别(如“垃圾邮件”或“非垃圾邮件”)的概率。模型更新:根据数据更新看法的核心思想反映了许多机器学习模型学习的方式。它们从一些初始参数(先验看法)开始,并随着处理更多数据(证据)而调整它们,以获得更好的参数(后验看法)。贝叶斯方法:统计学和机器学习中有一个被称为贝叶斯方法的完整分支,它广泛使用这个定理来对预测和参数中的不确定性进行建模。虽然我们不会在本入门课程中深入复杂的贝叶斯建模,但理解贝叶斯定理的基本原理是有益的。它将随着你收集更多信息而调整你的理解这一直观过程形式化,这是人类和机器从数据中学习的核心。