在我们对样本空间和事件的理解之上,让我们思考当已知另一事件已经发生时,一个事件的概率会如何变化。这引出了条件概率这一重要思想。
理解条件概率
通常,我们对事件A在已知事件B已发生的情况下发生的概率感兴趣。这被称为给定B时A的条件概率,记作P(A∣B)。可以将其视为根据新信息(事件B)更新我们的概率估计。
核心观点是,事件B的发生有效地缩小了我们的样本空间。我们不再考虑原始样本空间S中的所有可能结果;而是只关注事件B内部的结果。在这个缩小的样本空间中,我们想找到那些也属于事件A的结果的概率。这些结果就是交集A∩B中的结果。
条件概率的正式定义如下:
P(A∣B)=P(B)P(A∩B)
此公式成立的前提是P(B)>0(我们不能对一个发生概率为零的事件进行条件运算)。P(A∩B)表示A和B都发生的概率。
示例:邮件过滤
假设我们正在分析电子邮件,将它们分类为垃圾邮件或非垃圾邮件(正常邮件)。令S表示邮件是垃圾邮件的事件,令W表示邮件包含单词“winner”的事件。假设我们从一个大型数据集中获得以下概率:
- P(S): 邮件是垃圾邮件的概率 = 0.2
- P(W): 邮件包含“winner”的概率 = 0.1
- P(S∩W): 邮件是垃圾邮件且包含“winner”的概率 = 0.08
已知邮件包含单词“winner”,那么它是垃圾邮件的概率是多少?我们要计算P(S∣W)。
使用公式:
P(S∣W)=P(W)P(S∩W)=0.100.08=0.8
因此,如果我们知道一封邮件包含单词“winner”,它是垃圾邮件的概率会从基准P(S)=0.2大幅增加到P(S∣W)=0.8。这种计算在构建垃圾邮件过滤器中是极为重要的。
我们可以用图表来表示样本空间的这种限制。
该图示说明了对事件W(包含“winner”的邮件)进行条件限制,将关注范围限定在蓝色区域。条件概率P(S∣W)是交集(红色重叠部分)相对于条件空间(蓝色区域)大小的比例。
事件的独立性
那么,如果已知事件B发生,但它完全不改变事件A的概率呢?在这种情况下,我们说事件A和事件B是独立的。
形式上,如果两个事件A和B满足以下条件,则它们是独立的:
P(A∣B)=P(A)
假设P(B)>0。同样,如果P(A)>0,独立性也意味着P(B∣A)=P(B)。
如果我们将条件概率的定义代入独立性条件P(A∣B)=P(A),我们得到:
P(B)P(A∩B)=P(A)
将两边同时乘以P(B),我们得到了一个非常有用的独立性替代定义:
两个事件A和B独立当且仅当:
P(A∩B)=P(A)P(B)
如果你知道单个事件及其交集的概率,这个公式通常是检查独立性的最简单方法。即使P(A)或P(B)为零,它也成立。
示例:抛硬币对比抽牌
- 独立事件: 考虑抛掷一枚均匀硬币两次。令A为第一次抛掷得到正面的事件(P(A)=0.5),B为第二次抛掷得到正面的事件(P(B)=0.5)。已知第一次抛掷的结果并不会改变第二次抛掷的概率,因此P(B∣A)=P(B)=0.5。这些事件是独立的。我们也可以使用交集来检查:两次都得到正面的概率是P(A∩B)=P(HH)=0.25。这等于P(A)P(B)=0.5×0.5=0.25。
- 相关事件: 考虑从一副标准的52张扑克牌中不放回地抽取两张牌。令A为第一张牌是A的事件(P(A)=4/52)。令B为第二张牌是A的事件。B的概率取决于A是否发生。
- 如果第一张牌是A(A发生),那么51张牌中只剩下3张A。因此,P(B∣A)=3/51。
- 如果第一张牌不是A(Ac发生),那么51张牌中仍剩下4张A。因此,P(B∣Ac)=4/51。
由于P(B∣A)=P(B∣Ac)(且两者都不等于整体的P(B)=4/52),事件A和B是相关的。第一次抽牌的结果改变了第二次抽牌的概率。
这些思想为何对机器学习 (machine learning)重要?
理解条件概率和独立性对机器学习非常重要,原因如下:
- 概率模型: 许多机器学习模型,如朴素贝叶斯分类器,直接建立在概率规则之上。例如,朴素贝叶斯使用贝叶斯定理(我们将在下文介绍),并对给定类别标签的特征独立性做出强假设以简化计算。了解何时该假设合理或被违反非常重要。
- 特征关系: 条件概率帮助我们理解数据中不同特征之间以及与我们想要预测的目标变量之间的关联。例如,P(疾病∣症状)就是一个条件概率。
- 贝叶斯推断: 贝叶斯统计和机器学习的整个学科都围绕着根据观测数据更新信念(概率),这正是条件概率使我们能够形式化的内容。
熟练掌握如何计算和解释P(A∣B)以及如何判断事件是否独立,是理解更复杂的统计方法和机器学习算法的重要环节。这些思想为理解贝叶斯定理奠定了基础,贝叶斯定理提供了一种反转条件方向的机制。