概率理论涉及理解样本空间(所有可能结果的集合)和事件(样本空间的子集)。然而,我们往往对具体结果本身不那么在意,而更在意与该结果相关的数值量。例如,抛掷三次硬币时,样本空间为 S={HHH,HHT,HTH,THH,HTT,THT,TTH,TTT}。虽然了解确切的序列可能有用,但我们可能更关注出现了多少个正面。这促使我们界定随机变量。
一个随机变量本质上是一个函数,它将样本空间中的结果映射到实数。它提供了一个随机现象的数值概括。我们通常用大写字母如 X、Y 或 Z 来表示随机变量。
以三次抛掷硬币为例,我们可以定义一个随机变量 X 为“正面出现的次数”。X 的可能取值为 {0,1,2,3}。请注意 X 如何将一个数值分配给 S 中的每个结果:
- X(TTT)=0
- X(HTT)=1, X(THT)=1, X(TTH)=1
- X(HHT)=2, X(HTH)=2, X(THH)=2
- X(HHH)=3
由于 S 中的结果都关联着概率(假设是公平的硬币,每个结果的概率为 1/8),我们可以确定随机变量取其每个可能数值的概率。例如,随机变量 X 等于 1 的概率,表示为 P(X=1),是映射到 1 的结果的概率之和:P(HTT)+P(THT)+P(TTH)=1/8+1/8+1/8=3/8。
随机变量大致分为两种主要类型:离散型和连续型。
离散型随机变量
如果随机变量的可能取值集合是有限的或可数无限的,则称其为离散型。这意味着你可以列出所有可能的数值结果,即使列表是无限长的(例如整数集)。
常见例子包括:
- n 次抛掷硬币中正面的数量(可能取值:0,1,...,n)。
- 从生产线上抽取样本中的缺陷品数量。
- 一小时内收件箱中收到的电子邮件数量(可能取值:0,1,2,...)。
- 投掷一个标准六面骰子的结果(可能取值:1,2,3,4,5,6)。
对于离散型随机变量 X,我们使用**概率质量函数(PMF)**来描述其行为。PMF 通常表示为 p(x) 或 P(X=x),它给出了随机变量 X 取特定值 x 的概率。
p(x)=P(X=x)
PMF 必须满足两个条件:
- 对于所有可能的 x 值,p(x)≥0。(概率不能为负)。
- ∑xp(x)=1。(所有可能取值的概率之和必须等于 1)。
在我们的三次抛掷硬币例子中,X(正面数量)的 PMF 如下:
- P(X=0)=1/8
- P(X=1)=3/8
- P(X=2)=3/8
- P(X=3)=1/8
你可以验证这些概率之和为 1/8+3/8+3/8+1/8=8/8=1。
连续型随机变量
如果随机变量可以在给定范围或区间内取任何值,则称其为连续型。其可能取值的集合是不可数无限的。可以将其视为理论上可以任意精确的测量值。
常见例子包括:
- 随机选择的成年人的身高。
- 房间的温度。
- 服务器响应请求所需的时间。
- 某城市明天降雨的精确量。
对于连续型随机变量,我们不能为任何单一的特定值赋予非零概率。为什么?因为在任何区间内都有无限多个可能值。命中恰好一个特定实数(例如恰好 175.000... 厘米的身高)的概率实际上为零。相反,我们谈论的是变量落入某个区间的概率。
我们使用**概率密度函数(PDF)**来描述连续型随机变量 X 的行为,通常表示为 f(x) 或 fX(x)。PDF 本身并不是概率,但其高度表示变量接近特定值的相对可能性。X 落在区间 [a,b] 内的概率由 PDF 曲线在 a 和 b 之间的面积给出。数学上,这由积分表示:
P(a≤X≤b)=∫abf(x)dx
PDF 必须满足两个条件:
- 对于所有 x,f(x)≥0。(密度不能为负)。
- ∫−∞∞f(x)dx=1。(曲线下的总面积必须等于 1)。
请注意,对于连续型随机变量,对于任何特定值 c, P(X=c)=∫ccf(x)dx=0。这意味着 P(a≤X≤b) 与 P(a<X<b) 是相同的。
随机变量的重要性
随机变量在统计学和机器学习中非常重要。它们使我们能够脱离底层样本空间,专注于随机现象的数值特征。
- 数据建模: 数据集中的特征(如年龄、收入、像素强度、词频)通常被视为随机变量的观测值。了解它们的类型(离散型或连续型)指导我们如何进行建模和分析。
- 概率分布: PMF 和 PDF 定义了随机变量的概率分布,描述了其不同值的可能性。我们将在下一章研究二项分布、泊松分布和正态分布等常见分布。
- 统计推断: 我们使用随机变量的观测值(我们的样本数据)来对数据来源的底层过程或总体进行推断。
理解离散型和连续型随机变量之间的区别,以及它们相关的概率函数(PMF 和 PDF),是正确应用统计方法所必需的。在下一节中,我们将介绍如何使用期望值和方差来概括这些分布的中心趋势和离散程度。