让我们对您学过的基本概率、条件概率和独立性等知识点进行练习。练习这些例子将帮助您巩固如何计算和解释概率的认识。请记住,概率为量化不确定性提供了依据,这在机器学习中是必不可少的。问题1:投掷一枚公平骰子假设您投掷一枚标准的、公平的六面骰子一次。样本空间,表示所有可能的结果,是 $S = {1, 2, 3, 4, 5, 6}$。让我们定义两个事件:事件 A:投掷出偶数。$A = {2, 4, 6}$。事件 B:投掷出大于4的数字。$B = {5, 6}$。计算以下概率:$P(A)$:投掷出偶数的概率。$P(B)$:投掷出大于4的数字的概率。$P(A \cap B)$:投掷出既是偶数又大于4的数字的概率。$P(A \cup B)$:投掷出是偶数或者大于4的数字(或两者都是)的概率。解答:计算 $P(A)$: 事件 A 有 3 个有利结果 ${2, 4, 6}$。总结果数为 6。 $$P(A) = \frac{\text{事件 A 的结果数}}{\text{总结果数}} = \frac{3}{6} = 0.5$$计算 $P(B)$: 事件 B 有 2 个有利结果 ${5, 6}$。总结果数为 6。 $$P(B) = \frac{\text{事件 B 的结果数}}{\text{总结果数}} = \frac{2}{6} = \frac{1}{3} \approx 0.333$$计算 $P(A \cap B)$: 我们需要同时属于 A 和 B 的结果。查看集合 $A = {2, 4, 6}$ 和 $B = {5, 6}$,它们唯一共享的结果是 6。因此,交集是 $A \cap B = {6}$。此事件有 1 个有利结果。 $$P(A \cap B) = \frac{\text{事件 } A \cap B \text{ 的结果数}}{\text{总结果数}} = \frac{1}{6} \approx 0.167$$计算 $P(A \cup B)$: 我们可以使用并集概率的公式:$P(A \cup B) = P(A) + P(B) - P(A \cap B)$。 $$P(A \cup B) = \frac{3}{6} + \frac{2}{6} - \frac{1}{6} = \frac{3 + 2 - 1}{6} = \frac{4}{6} = \frac{2}{3} \approx 0.667$$ 或者,我们可以找到并集 $A \cup B = {2, 4, 5, 6}$,它有 4 个结果。 $$P(A \cup B) = \frac{\text{事件 } A \cup B \text{ 的结果数}}{\text{总结果数}} = \frac{4}{6} = \frac{2}{3} \approx 0.667$$问题2:从袋中抽取球(不放回)一个袋子中有 8 个球:5 个红色 (R) 和 3 个蓝色 (B)。您从袋子中连续抽取两个球,不将第一个球放回。计算以下概率:$P(B_2 | R_1)$:在抽取的第一个球是红色的情况下,第二个球是蓝色的概率。$P(R_1 \cap R_2)$:第一个球和第二个球都是红色的概率。解答:计算 $P(B_2 | R_1)$: “在抽取的第一个球是红色 ($R_1$) 的情况下”意味着我们假设 $R_1$ 已经发生。当我们抽取第二个球时,袋子里现在只剩下 7 个球。由于第一个球是红色的,还剩下 4 个红球和 3 个蓝球。 在这种情况下,第二个球是蓝色 ($B_2$) 的概率是: $$P(B_2 | R_1) = \frac{\text{剩余蓝球数}}{\text{剩余球总数}} = \frac{3}{7} \approx 0.429$$计算 $P(R_1 \cap R_2)$: 这要求第一个球是红色并且第二个球也是红色的概率。我们可以使用条件概率的乘法法则:$P(R_1 \cap R_2) = P(R_1) \times P(R_2 | R_1)$。首先,求 $P(R_1)$:最初,总共有 8 个球,其中 5 个是红色。 $$P(R_1) = \frac{5}{8}$$接下来,求 $P(R_2 | R_1)$:这是在第一个球是红色的情况下,第二个球是红色的概率。如果第一个球是红色,则还剩下 7 个球,其中 4 个是红色。 $$P(R_2 | R_1) = \frac{4}{7}$$现在,将这些概率相乘: $$P(R_1 \cap R_2) = P(R_1) \times P(R_2 | R_1) = \frac{5}{8} \times \frac{4}{7} = \frac{20}{56} = \frac{5}{14} \approx 0.357$$问题3:垃圾邮件过滤器分析假设对 100 封电子邮件进行简单分析,根据它们是否被归类为垃圾邮件 (S) 或非垃圾邮件 (NS),以及是否包含“discount”一词 (D) 或不包含 (ND)。结果总结如下:包含“discount” (D)不包含“discount” (ND)总计垃圾邮件 (S)201030非垃圾邮件 (NS)56570总计2575100使用此数据,计算以下内容:$P(S)$:此数据集中电子邮件是垃圾邮件的总体概率。$P(D)$:电子邮件包含“discount”一词的总体概率。$P(S|D)$:在电子邮件包含“discount”一词的情况下,它是垃圾邮件的概率。此数据集中,“电子邮件是垃圾邮件” (S) 和 “电子邮件包含‘discount’” (D) 这两个事件是否独立?解释原因。解答:计算 $P(S)$: 从表中可以看出,100 封电子邮件中有 30 封是垃圾邮件。 $$P(S) = \frac{\text{垃圾邮件总数}}{\text{电子邮件总数}} = \frac{30}{100} = 0.3$$计算 $P(D)$: 从表中可以看出,100 封电子邮件中有 25 封包含“discount”一词。 $$P(D) = \frac{\text{包含‘discount’的电子邮件总数}}{\text{电子邮件总数}} = \frac{25}{100} = 0.25$$计算 $P(S|D)$: 这是在电子邮件包含“discount”的情况下,它是垃圾邮件的概率。我们只关注包含“discount”的电子邮件列(总共 25 封电子邮件)。在该组中,有 20 封是垃圾邮件。 $$P(S|D) = \frac{\text{包含‘discount’的垃圾邮件数}}{\text{包含‘discount’的电子邮件总数}} = \frac{20}{25} = 0.8$$ 或者,使用公式 $P(S|D) = P(S \cap D) / P(D)$: $P(S \cap D)$ 是电子邮件既是垃圾邮件又包含“discount”的概率,即 $20/100 = 0.2$。 $$P(S|D) = \frac{0.2}{0.25} = \frac{20}{25} = 0.8$$检查独立性: 如果 $P(S|D) = P(S)$,则两个事件 S 和 D 是独立的。我们计算得到 $P(S|D) = 0.8$。我们计算得到 $P(S) = 0.3$。 由于 $0.8 \neq 0.3$,因此在此数据集中,事件 S(电子邮件是垃圾邮件)和 D(电子邮件包含“discount”)是不独立的。了解到一封电子邮件包含“discount”会明显增加它是垃圾邮件的概率(从 30% 增加到 80%)。这种依赖性正是垃圾邮件过滤器尝试学习并加以运用的。这些练习涵盖了简单概率的计算、并集法则的应用、通过连续事件(抽球)和列联表(电子邮件分析)理解条件概率,以及独立性检验。熟练掌握这些计算是转向机器学习中更复杂的概率模型之前的一个必要步骤。