在了解了均匀分布(其中给定范围内的每个结果都等可能)之后,我们现在来看概率和统计学中最常见且很有意义的连续型分布:正态分布,它也被广泛地称为高斯分布或钟形曲线。
它的普遍性并非偶然。许多自然现象,如人类身高、测量误差和血压等,都趋向于服从正态分布。此外,它在许多统计理论和机器学习算法中起着基本作用,部分原因在于中心极限定理,我们将在本章后面部分讨论这一内容。
正态分布的形态
正态分布的特点是其对称的钟形。曲线以其均值为中心,其分布的宽度或范围由其标准差决定。
参数:均值与标准差
一个特定的正态分布由两个参数来确定:
- 均值 (μ): 这个参数表示分布的中心。它是钟形曲线的顶点,也是随机变量的平均值。改变均值会将整个曲线沿数轴向左或向右移动,而不改变其形态。
- 标准差 (σ): 这个参数控制分布的扩散程度或离散程度。较小的标准差会形成更高、更窄的曲线,表明数据点紧密聚集在均值附近。较大的标准差会形成更矮、更宽的曲线,表示数据有更大的变异性。方差 (σ2) 也常用于其定义中。
概率密度函数 (PDF)
对于连续型分布,概率密度函数 (PDF) 用于描述变量取特定范围内的值的可能性,由曲线下的面积表示。正态分布的 PDF 由以下公式给出:
f(x∣μ,σ2)=2πσ21e−2σ2(x−μ)2
其中:
- x 是随机变量的值。
- μ 是均值。
- σ2 是方差 (σ 是标准差)。
- π 是数学常数圆周率 (大约 3.14159)。
- e 是自然对数的底数 (大约 2.71828)。
虽然这个公式可能看起来复杂,但主要需要记住的是,这条曲线的形态完全由均值 μ 和标准差 σ 决定。这条曲线下的总面积,与任何 PDF 一样,总是等于 1。
正态分布的可视化
下面的图表显示了标准正态分布(其中 μ=0 且 σ=1)的标志性钟形,以及另一个具有不同均值和标准差(μ=2,σ=1.5)的正态分布。
两种正态分布 PDF 的比较。蓝色曲线 (μ=0, σ=1) 是标准正态分布。绿色曲线 (μ=2, σ=1.5) 以 2 为中心,并由于标准差较大而更宽。
经验法则 (68-95-99.7 法则)
理解正态分布扩散程度的有用指导是经验法则:
- 大约 68% 的数据落在距均值一个标准差的范围内(即在 μ−σ 和 μ+σ 之间)。
- 大约 95% 的数据落在距均值两个标准差的范围内(即在 μ−2σ 和 μ+2σ 之间)。
- 大约 99.7% 的数据落在距均值三个标准差的范围内(即在 μ−3σ 和 μ+3σ 之间)。
这个法则提供了一种快速估算服从正态分布的数据在特定范围内预期比例的方法。
正态分布在机器学习中有何作用?
正态分布经常出现在机器学习的背景中:
- 残差建模:在许多回归模型(如线性回归)中,假设误差(或残差,即预测值与实际值之间的差)服从正态分布。
- 算法假定:一些算法,如高斯朴素贝叶斯,明确假设特征服从正态分布。线性判别分析 (LDA) 也假设每个类别内的数据服从正态分布。
- 中心极限定理:如前所述,这个定理(稍后讨论)指出,无论原始总体分布如何,随着样本量增大,样本均值的分布趋近于正态分布。这对于统计推断很根本。
- 参数初始化:神经网络中的权重常用从正态分布中抽取的值进行初始化。
"5. 自然过程:对由许多小型独立效应总和产生的过程或数据进行建模时,正态分布通常能提供一个很好的近似。"
因此,理解正态分布的特性对于正确应用和解释许多统计和机器学习方法是必要的。在接下来的部分,我们将看到如何使用 Python 生成服从这种分布的数据点。