上一章我们计算了特定事件的概率。现在,我们将学习如何描述随机过程中所有可能结果的概率。这种有条理的描述就是我们所说的概率分布。它是理解变异性的一个重要内容,在机器学习中用于数据建模和不确定性处理。在分析分布前,我们先明确它们所描述的对象:随机变量。随机变量本质上是一种变量,其取值是由偶然性决定的数值结果。可以将其理解为将随机实验(如抛硬币或测量某人身高)的结果映射到数字的一种方式。如果您抛掷一枚硬币,可以定义一个随机变量$X$,当出现正面时$X=1$,当出现反面时$X=0$。如果您掷一个标准的六面骰子,随机变量$Y$可以是朝上那一面的数字(可能取值:1, 2, 3, 4, 5, 6)。如果您测量随机选择的成年人身高,随机变量$H$可以是他们身高的厘米数。那么,概率分布就是为随机变量的每一个可能取值指定概率。它是一个数学函数,给出实验中不同可能结果出现的概率。想象您有总共为1(或100%)的概率要分配给所有可能的结果;概率分布会告诉您这些概率是如何分配的。概率分布通常根据其描述的随机变量类型分为两大类:1. 离散概率分布这类分布描述的是只能取有限个特定、分离值的随机变量,通常是整数。您可以数出所有可能的结果。例子:抛掷5次硬币中出现正面的次数(可以是0, 1, 2, 3, 4或5)。您在一小时内收到的电子邮件数量(可以是0, 1, 2,...)。掷一次骰子的结果(可以是1, 2, 3, 4, 5或6)。对于离散分布,我们可以列出随机变量的每个可能取值,并为每个值分配一个概率。所有这些概率的总和必须等于1。我们通常使用**概率质量函数(PMF)**来定义这种关系,这将在下一节讨论。考虑一个公平六面骰子投掷的简单例子。随机变量$Y$是投掷结果。有六个可能的、等概率的结果。概率分布可以按以下方式显示:{"layout": {"title": "公平骰子投掷的概率分布", "xaxis": {"title": "结果 (Y)"}, "yaxis": {"title": "概率 P(Y=y)", "range": [0, 0.2]}, "bargap": 0.2}, "data": [{"type": "bar", "x": [1, 2, 3, 4, 5, 6], "y": [0.16666666666666666, 0.16666666666666666, 0.16666666666666666, 0.16666666666666666, 0.16666666666666666, 0.16666666666666666], "marker": {"color": "#228be6"}}]}每个可能的掷骰子结果(1到6)都有相同的概率,即$1/6 \approx 0.167$。这是一个离散均匀分布的例子。2. 连续概率分布这类分布描述的是可以在给定范围或区间内取任意值的随机变量。您无法简单地列出所有可能值,因为它们是无限的。例子:一个人的身高(例如,可以是175.2厘米,175.21厘米,175.213厘米...)。房间的精确温度。完成一个过程所需的时间。对于连续分布,随机变量取任何单一、特定值的概率实际上为零(想想某人身高恰好是175.0000...厘米的几率)。我们讨论的是变量落入特定区间的概率。例如,某人身高在170厘米到180厘米之间的概率是多少?这些分布使用**概率密度函数(PDF)**来描述,我们将在本章后面介绍。PDF有助于确定变量落入某一值范围内的可能性;PDF曲线在某个区间下的面积就代表变量在该区间内的概率。想象一下成年人身高的分布。它通常呈钟形,平均身高附近的值更可能出现,而非常矮或非常高的身高则不太可能。我们无法为恰好175厘米的身高分配一个概率,但可以通过查看该范围内曲线下的面积来找到身高在174厘米到176厘米之间的概率。为什么学习概率分布?理解概率分布在数据分析和机器学习中有很多用处:"* 数据建模: 它们给出涉及不确定性现象的数学描述。我们常假定数据遵循特定分布(如正态分布)来构建模型。"数据概括: 它们能简明地概括可能数据值的范围和可能性。 "* 模拟: 我们可以使用分布来创建模拟数据,以模仿过程,这对于测试算法或分析情况很有用。"推断: 分布是统计推断的重要依据,帮助我们根据样本对总体得出结论。在接下来的章节中,我们将更细致地查看用于定义离散(PMF)和连续(PDF)分布的函数,并考察实践中遇到的一些常用分布。