为理解机器学习算法的概率基础,我们需要一种清晰的语言来描述不确定性和可能的结果。这首先要定义样本空间和事件的根本概念。可以将它们视为构建概率模型的基本构成要素。样本空间:定义所有可能结果在讨论某事发生的概率之前,我们首先需要精确定义 所有 可能发生的事情。随机实验或过程的所有潜在结果的这个完整集合被称为样本空间,通常用希腊字母Omega($\Omega$)表示。什么构成“结果”完全取决于我们正在考虑的实验:抛掷一次硬币: 唯一可能的结果是正面(H)或反面(T)。因此,样本空间是 $\Omega = {H, T}$。掷一个标准六面骰子: 结果是骰子面上的数字。$\Omega = {1, 2, 3, 4, 5, 6}$。抛掷两次硬币: 每个结果都是一对结果。$\Omega = {(H, H), (H, T), (T, H), (T, T)}$。我们通常更简洁地写成 ${HH, HT, TH, TT}$。测量温度: 这有所不同。理想情况下,温度可以在一个范围内取任意值,而不仅仅是离散的步长。如果我们在摄氏度下测量温度,样本空间可能表示为实数的一个区间,例如,$\Omega = {t \in \mathbb{R} \mid -50 \le t \le 60 }$。这是一个连续样本空间的例子,而前面的例子是离散的。正确定义样本空间是任何概率问题的第一步。它通过列出我们需要考虑的每一种可能性来做好准备。事件:感兴趣的子集通常,我们不关心 所有 可能的结果同时发生,而是关心某个 特定 结果或 一组 结果是否发生。一个事件是样本空间$\Omega$的任意子集。我们常用大写字母如 $A$, $B$, $E$ 等来表示事件。让我们根据之前的样本空间来看事件:掷骰子 ($\Omega = {1, 2, 3, 4, 5, 6}$):事件“掷出6”是子集 $A = {6}$。事件“掷出偶数”是子集 $B = {2, 4, 6}$。事件“掷出大于3的数字”是 $C = {4, 5, 6}$。抛掷两次硬币 ($\Omega = {HH, HT, TH, TT}$):事件“恰好得到一个正面”是 $D = {HT, TH}$。事件“至少得到一个正面”是 $E = {HH, HT, TH}$。测量温度 ($\Omega = {t \in \mathbb{R} \mid -50 \le t \le 60 }$):事件“温度在冰点或以下”是 $F = {t \in \Omega \mid t \le 0}$。事件“温度在20°C和25°C之间”是 $G = {t \in \Omega \mid 20 \le t \le 25}$。任何样本空间都存在两种特殊事件:样本空间本身 ($\Omega$): 这是必然事件,因为实验的任何结果都必须在$\Omega$之内。空集 ($\emptyset$ 或 ${}$): 这是不可能事件,因为它不包含任何结果。使用集合运算组合事件由于事件是集合,我们可以使用标准集合运算从现有事件创建新事件。这对于理解不同事件之间的关系非常重要。并集 ($A \cup B$): 表示在事件 $A$ 中、或在事件 $B$ 中、或两者兼有的结果。读作“$A$ 或 $B$”。示例(掷骰子):如果 $B = {2, 4, 6}$(偶数)且 $C = {4, 5, 6}$(> 3),那么 $B \cup C = {2, 4, 5, 6}$(偶数或大于3)。交集 ($A \cap B$): 表示事件 $A$ 和事件 $B$ 两者共有的结果。读作“$A$ 和 $B$”。示例(掷骰子):$B \cap C = {4, 6}$(偶数且大于3)。补集 ($A^c$ 或 $A'$): 表示样本空间 $\Omega$ 中不在事件 $A$ 中的所有结果。读作“非 $A$”。示例(掷骰子):如果 $B = {2, 4, 6}$(偶数),那么 $B^c = {1, 3, 5}$(非偶数,即奇数)。如果两个事件 $A$ 和 $B$ 没有共同结果,即它们的交集是空集 ($A \cap B = \emptyset$),则称它们为互斥或不相交事件。例如,掷骰子时掷出偶数的事件和掷出奇数的事件是互斥的。digraph SetOperations { rankdir=TB; node [shape=plaintext, fontname="Arial"]; subgraph cluster_Omega { label = "样本空间 Ω = {1, 2, 3, 4, 5, 6}"; bgcolor="#e9ecef"; node [shape=circle, style=filled, fixedsize=true, width=0.5, height=0.5, fontname="Arial"]; subgraph cluster_B { label = "事件 B (偶数)"; bgcolor="#a5d8ff"; node [fillcolor="#74c0fc"]; 2; 4; 6; } subgraph cluster_C { label = "事件 C (> 3)"; bgcolor="#ffec99"; node [fillcolor="#ffe066"]; 4; 5; 6; // 4 and 6 are repeated but graphviz handles it } node [fillcolor="#ced4da"]; // Default color for nodes not in B or C 1; 3; } // Annotations outside clusters using invisible edges for positioning edge [style=invis]; {rank=same; 1; 2; 3;} {rank=same; 4; 5; 6;} // Indicate Intersection B ∩ C = {4, 6} subgraph cluster_Intersection { label="B ∩ C = {4, 6}"; node [fillcolor="#4dabf7"]; // Mix of blue and yellow -> greenish? Let's use blue variation 4; 6; bgcolor="#74c0fc"; // Use B's color for simplicity or a mix? Sticking with B's color region. } // Indicate Union B U C = {2, 4, 5, 6} (implied by clusters B and C) // Indicate Complement B^c = {1, 3, 5} (nodes 1, 3, 5 are outside B) }一个使用Graphviz绘制的维恩图,表示在单次掷骰子的样本空间 Ω 中,事件 B(偶数)和事件 C(大于3的数字)。交集 $B \cap C$ 包含结果 {4, 6}。B的补集 $B^c$ 包含 {1, 3, 5}。理解样本空间和事件使我们能够精确定义我们想要分析的场景。在机器学习中,“实验”可能是观察数据点的特征、运行算法或接收用户输入。“结果”可能是分类、预测值或系统状态。事件随后对应于特定的预测(例如,将电子邮件分类为垃圾邮件)或数据特性(例如,像素值落在特定范围内)。下一步,我们将在本课程中学习,是为这些事件分配概率。