在上一章中,我们研究了描述和概括已有数据的方法。现在,我们将重心转向处理不确定性。机器学习中的许多情况,如预测未来结果或理解模型表现,都涉及结果事先不确定的过程。概率学提供了思考和量化这种不确定性的工具。我们从最基本的组成部分开始。实验与结果在概率学中,实验(或试验)指任何具有可观察结果,但具体结果无法事先确定的过程或动作。可以将其视为一个可重复且具有明确可能结果集的过程。以下是一些简单的例子:抛掷一次硬币。掷一次标准六面骰子。测量随机选取的学生身高。观察顾客是否点击在线广告。实验的每个潜在结果称为一个结果。对于抛掷硬币,可能的结果是“正面”或“反面”。对于掷骰子,可能的结果是数字1、2、3、4、5或6。对于测量身高,一个结果可能是某个特定值,例如172.5厘米。对于广告点击,结果是“点击”或“未点击”。结果是我们可以从实验中观察到的最基本、独立的产出。样本空间理解一个实验所有可能的不同结果,是处理不确定性时的基础。样本空间就是这样一个集合,它包含了实验所有可能的不同结果。它表示实验单次试验中可能发生的一切。我们通常用大写字母 $S$ 表示样本空间。我们为这些例子定义样本空间:抛掷硬币: 结果是正面 (H) 和反面 (T)。样本空间是 $S = {H, T}$。掷骰子: 结果是骰子面上的数字。样本空间是 $S = {1, 2, 3, 4, 5, 6}$。广告点击: 结果是点击 (C) 和未点击 (NC)。样本空间是 $S = {C, NC}$。样本空间必须是穷尽的,这意味着它包含所有可能的结果。它还必须由互斥的结果组成,这意味着在实验的单次试验中只能发生一个结果(例如,一次抛掷硬币不可能既是正面又是反面)。正确定义样本空间是解决任何概率问题的基本一步。事件通常,我们感兴趣的不仅是单个结果,而是一组特定结果或结果的子集。事件是样本空间的任意子集。它表示我们可能关心的特定结果或一组结果。事件通常用大写字母表示,如 $A$、$B$、$E$ 等。考虑掷一个标准六面骰子,样本空间为 $S = {1, 2, 3, 4, 5, 6}$。以下是一些可能的事件:事件 A:掷出 3。 此事件对应于单个结果。作为样本空间的一个子集,我们将其写为 $A = {3}$。事件 B:掷出偶数。 此事件包括多个结果:2、4和6。作为子集, $B = {2, 4, 6}$。事件 C:掷出大于 4 的数字。 此事件包括结果 5 和 6。作为子集, $C = {4, 5, 6}$。事件 D:掷出 7。 由于 7 不是我们样本空间 $S$ 中的可能结果,此事件对应于空集: $D = {}$ 或 $D = \emptyset$。这是此次实验中的一个不可能事件。事件 E:掷出小于 10 的数字。 所有可能的结果(1到6)都满足此条件。因此,此事件是整个样本空间: $E = {1, 2, 3, 4, 5, 6} = S$。这是一个必然事件。理解这些术语很重要:一个实验是一个过程。一个结果是一个单独的可能结果。样本空间 ($S$) 是所有可能结果的集合。一个事件 ($A, B, ...$) 是样本空间的一个子集,表示我们感兴趣的一个或一组结果。在机器学习中,我们经常处理数据点。你可以把观察单个数据点(例如顾客的购买金额或电子邮件是否是垃圾邮件)视为一个实验的结果。样本空间代表所有可能的观察结果,而一个事件可能对应于观察到具有特定特征的数据点(例如,购买金额超过100美元,或电子邮件被归类为垃圾邮件)。定义了样本空间和事件的这些基本要素后,我们现在可以继续实际计算与这些事件相关的概率了。