趋近智
概率质量函数 (PMF) 描述离散随机变量,例如三次掷硬币中正面朝上的次数。对于离散变量,可以列出所有可能的结果,并为每个结果指定一个特定的概率。PMF 给出 P(X=x),即随机变量 X 取精确值 x 的概率。
但是,当变量可以在连续范围内取 任何 值时,会发生什么呢?考虑测量某人的精确身高、准确温度,或者某个过程完成所需的时间。这些都是连续随机变量。如果我们尝试为单个无限精确的值(例如 精确 到 175.0000... 厘米的身高)指定一个概率,那么这个概率实际上将是零。可能性实在太多了!
对于连续变量,我们不关注单个点的概率,而是讨论变量落入某个特定 区间 的概率。这就是 概率密度函数 (PDF) 的作用。
PDF,通常记作 f(x),是一个函数,它描述了连续随机变量取某个给定值的相对可能性。与 PMF 不同,PDF 在特定点 x 上的值 f(x) 本身 不是 概率。相反,PDF 曲线在两点之间(例如 a 和 b 之间)的 曲线下面积 代表了随机变量 X 落入该区间 [a,b] 的概率。
从数学上讲,这可以用积分表示:
P(a≤X≤b)=∫abf(x)dx
如果你以前没有见过 ∫ 符号或微积分,请不要担心。其重要思想是 面积 = 概率。对于我们将遇到的许多标准分布,我们不需要手动执行积分;我们可以使用表格或软件函数。
可以这样想:想象一个具有连续值的大型数据集的直方图。当你把直方图的条形(bins)变得越来越窄时,条形的顶部会开始形成一条平滑的曲线。这条平滑曲线就代表了 PDF。曲线上任何点的高度都表明了数值在哪里更密集地聚集。
一个有效的 PDF 必须满足两个主要性质:
需要记住的是:
我们将其可视化。考虑一个通用 PDF 曲线:
阴影区域表示概率 P(2≤X≤4)。该概率等于 x=2 和 x=4 之间蓝色曲线下的面积。曲线 f(x) 的高度表明了值 x 周围的概率密度。
| 特征 | PMF (离散) | PDF (连续) |
|---|---|---|
| 适用范围 | 离散随机变量 | 连续随机变量 |
| 函数值 | P(X=x) (点概率) | f(x) (点密度) |
| 概率 | 集合上 PMF 值的求和 | 区间上 PDF 曲线下的面积(积分) |
| 取值范围 | 0≤P(X=x)≤1 | f(x)≥0 (可大于 1) |
| 求和/积分 | ∑所有 xP(X=x)=1 | ∫−∞∞f(x)dx=1 |
理解 PDF 在处理机器学习中的连续测量数据时非常重要。许多算法假定特征服从特定的分布(例如我们接下来将要了解的正态分布),PDF 允许我们有效地建模和处理这些连续量。它们帮助我们量化不确定性,并对连续结果进行概率表述。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造