为理解机器学习 (machine learning)算法的概率基础,我们需要一种清晰的语言来描述不确定性和可能的结果。这首先要定义样本空间和事件的根本概念。可以将它们视为构建概率模型的基本构成要素。
样本空间:定义所有可能结果
在讨论某事发生的概率之前,我们首先需要精确定义 所有 可能发生的事情。随机实验或过程的所有潜在结果的这个完整集合被称为样本空间,通常用希腊字母Omega(Ω)表示。
什么构成“结果”完全取决于我们正在考虑的实验:
- 抛掷一次硬币: 唯一可能的结果是正面(H)或反面(T)。因此,样本空间是 Ω={H,T}。
- 掷一个标准六面骰子: 结果是骰子面上的数字。Ω={1,2,3,4,5,6}。
- 抛掷两次硬币: 每个结果都是一对结果。Ω={(H,H),(H,T),(T,H),(T,T)}。我们通常更简洁地写成 {HH,HT,TH,TT}。
- 测量温度: 这有所不同。理想情况下,温度可以在一个范围内取任意值,而不仅仅是离散的步长。如果我们在摄氏度下测量温度,样本空间可能表示为实数的一个区间,例如,Ω={t∈R∣−50≤t≤60}。这是一个连续样本空间的例子,而前面的例子是离散的。
正确定义样本空间是任何概率问题的第一步。它通过列出我们需要考虑的每一种可能性来做好准备。
事件:感兴趣的子集
通常,我们不关心 所有 可能的结果同时发生,而是关心某个 特定 结果或 一组 结果是否发生。一个事件是样本空间Ω的任意子集。我们常用大写字母如 A, B, E 等来表示事件。
让我们根据之前的样本空间来看事件:
- 掷骰子 (Ω={1,2,3,4,5,6}):
- 事件“掷出6”是子集 A={6}。
- 事件“掷出偶数”是子集 B={2,4,6}。
- 事件“掷出大于3的数字”是 C={4,5,6}。
- 抛掷两次硬币 (Ω={HH,HT,TH,TT}):
- 事件“恰好得到一个正面”是 D={HT,TH}。
- 事件“至少得到一个正面”是 E={HH,HT,TH}。
- 测量温度 (Ω={t∈R∣−50≤t≤60}):
- 事件“温度在冰点或以下”是 F={t∈Ω∣t≤0}。
- 事件“温度在20°C和25°C之间”是 G={t∈Ω∣20≤t≤25}。
任何样本空间都存在两种特殊事件:
- 样本空间本身 (Ω): 这是必然事件,因为实验的任何结果都必须在Ω之内。
- 空集 (∅ 或 {}): 这是不可能事件,因为它不包含任何结果。
使用集合运算组合事件
由于事件是集合,我们可以使用标准集合运算从现有事件创建新事件。这对于理解不同事件之间的关系非常重要。
- 并集 (A∪B): 表示在事件 A 中、或在事件 B 中、或两者兼有的结果。读作“A 或 B”。
- 示例(掷骰子):如果 B={2,4,6}(偶数)且 C={4,5,6}(> 3),那么 B∪C={2,4,5,6}(偶数或大于3)。
- 交集 (A∩B): 表示事件 A 和事件 B 两者共有的结果。读作“A 和 B”。
- 示例(掷骰子):B∩C={4,6}(偶数且大于3)。
- 补集 (Ac 或 A′): 表示样本空间 Ω 中不在事件 A 中的所有结果。读作“非 A”。
- 示例(掷骰子):如果 B={2,4,6}(偶数),那么 Bc={1,3,5}(非偶数,即奇数)。
如果两个事件 A 和 B 没有共同结果,即它们的交集是空集 (A∩B=∅),则称它们为互斥或不相交事件。例如,掷骰子时掷出偶数的事件和掷出奇数的事件是互斥的。
一个使用Graphviz绘制的维恩图,表示在单次掷骰子的样本空间 Ω 中,事件 B(偶数)和事件 C(大于3的数字)。交集 B∩C 包含结果 {4, 6}。B的补集 Bc 包含 {1, 3, 5}。
理解样本空间和事件使我们能够精确定义我们想要分析的场景。在机器学习 (machine learning)中,“实验”可能是观察数据点的特征、运行算法或接收用户输入。“结果”可能是分类、预测值或系统状态。事件随后对应于特定的预测(例如,将电子邮件分类为垃圾邮件)或数据特性(例如,像素值落在特定范围内)。下一步,我们将在本课程中学习,是为这些事件分配概率。