通常,我们考虑概率时,计算的是某个事件在所有可能结果中发生的可能性。但如果已经有了一些已知信息呢?如果我们已知有其他事件发生了呢?这就引出了条件概率。
条件概率衡量的是在事件B已经发生的情况下,事件A发生的可能性。可以把它看作是根据新信息来更新我们的概率估计。我们将其记作P(A∣B),读作“在B发生的条件下A的概率”。
直观理解:缩小样本空间
“给定B”这个条件很重要。当我们知道事件B已经发生时,原始的样本空间(所有可能结果的集合)就不再完全适用。我们可以有效忽略B未发生的任何结果。我们的注意力转移到一个新的、缩小的样本空间,该空间只包含B已经发生的结果。条件概率此时会问:在这个新的、更小的、B为真的背景下,A也发生的可能性是多少?
条件概率的计算
条件概率的正式定义和公式是:
P(A∣B)=P(B)P(A∩B)
我们来细分一下:
- P(A∩B) (分子): 这是事件A和事件B同时发生的概率。请记住,在集合论中,交集符号(∩)表示“和”。我们需要A和B共有的结果。
- P(B) (分母): 这是事件B发生的概率(我们的已知信息)。这起到了归一化 (normalization)因子的作用,表示我们缩小后样本空间的大小。
- 条件: 这个公式只有在P(B)>0时才有意义。我们不能以一个发生概率为零的事件为条件。
本质上,这个公式计算了在B发生的结果中,A发生的结果所占的比例。
案例1:掷骰子
我们用一个标准的六面骰子。
样本空间S={1,2,3,4,5,6}。
定义两个事件:
- 事件A:掷出4。A={4}。
- 事件B:掷出偶数。B={2,4,6}。
首先,我们找出所需的概率:
- P(B):在6个可能结果中有3个偶数,所以P(B)=3/6=1/2。
- P(A∩B):这是掷出4并且掷出偶数的概率。唯一同时满足这两个条件的结果是掷出4。所以,A∩B={4},且P(A∩B)=1/6。
现在,我们来计算条件概率P(A∣B):“已知掷出的是偶数,掷出4的概率是多少?”
使用公式:
P(A∣B)=P(B)P(A∩B)=1/21/6=61×12=62=31
这符合我们的直观判断吗?如果我们知道掷出的是偶数,我们缩小后的样本空间就是{2,4,6}。在这3个等可能的结果中,只有一个结果是4。因此,概率确实是1/3。条件概率P(A∣B)=1/3高于原始概率P(A)=1/6,因为知道掷出的是偶数,增加了它是4的可能性。
案例2:使用调查数据
假设一项对100人进行的关于宠物饲养和住房类型的简短调查。结果总结在下表中:
|
有猫 |
无猫 |
总计 |
| 公寓 |
15 |
35 |
50 |
| 房屋 |
25 |
25 |
50 |
| 总计 |
40 |
60 |
100 |
我们来定义事件:
- 事件A:随机选择的人有猫。
- 事件B:随机选择的人住公寓。
我们要计算P(A∣B):“已知一个人住公寓,他有猫的概率是多少?”
首先,从表格中找出必要的概率(假设我们从100人中均匀随机选择一人):
- P(B)=P(住公寓):100人中有50人住公寓。P(B)=50/100=0.5。
- P(A∩B)=P(有猫且住公寓):有15人既有猫又住公寓。P(A∩B)=15/100=0.15。
现在,应用条件概率公式:
P(A∣B)=P(B)P(A∩B)=50/10015/100=0.500.15=5015=0.3
因此,已知一个人住公寓,他有猫的概率是0.3或30%。
再次,我们来检验直观理解。如果我们已知这个人住公寓,我们只需关注表格的第一行。在该行中,总共有50人,其中15人有猫。比例是15/50=0.3。公式也给出了相同的结果。
与机器学习 (machine learning)的关系
条件概率是机器学习许多方面的基本原理。例如:
- 分类: 模型通常会估计在给定输入特征的情况下,该输入属于某个类别的概率。P(类别∣特征)。例如,P(垃圾邮件∣邮件包含“免费金钱”)。
- 贝叶斯方法: 贝叶斯定理,我们接下来会介绍,直接建立在条件概率之上,并广泛用于对不确定性进行建模和更新认知。
认识到一个事件的概率如何根据另一个事件的发生而变化,对于分析数据和构建从数据中学习的模型来说很有用。它使我们能够量化 (quantization)不同信息之间的关联。