趋近智
了解数据的中心(平均值、中位数或众数)能提供一个有用的参考点。然而,这并不能说明全部情况。考虑两组考试分数:两组的平均分都可能是75分,但其中一组的分数可能紧密地集中在70到80之间,而另一组的分数可能从40到100大幅波动。单凭集中趋势度量无法反映这种分散度或变异性的差异。
为了量化数据点的分散程度,我们使用离散程度度量。最常用且重要的度量是方差和标准差。它们告诉我们数据点平均偏离其平均值的程度。
假设你有一个数据集,并且已经计算出它的平均值(总体的为μ,样本的为xˉ)。衡量离散程度的一个自然起始点可能是计算每个数据点与平均值的偏差(xi−μ或xi−xˉ),然后对这些偏差求平均。然而,存在一个问题:正偏差(高于平均值的点)和负偏差(低于平均值的点)总是会相互抵消,导致平均偏差为零。这没什么用!
为了克服这种抵消问题,我们在求平均之前将每个偏差平方。平方使得所有偏差都变为正值,确保它们不会相互抵消。这种平方偏差的平均值称为方差。
如果你的数据集代表了感兴趣的整个总体,那么方差(用希腊字母sigma的平方σ2表示)的计算公式如下:
σ2=N∑i=1N(xi−μ)2其中:
通常,我们处理的是样本,即总体的子集。当从样本估计总体方差时,我们使用样本方差(用s2表示)的公式略有不同:
s2=n−1∑i=1n(xi−xˉ)2其中:
请注意分母是 n−1 而不是 n。这被称为贝塞尔校正。使用 n−1 使得样本方差成为总体方差的无偏估计量,这意味着如果你抽取许多样本并使用 n−1 计算它们的方差,这些样本方差的平均值会更接近真实的总体方差。直观地说,样本平均值xˉ是从样本本身计算得出的,这使得样本数据点平均而言比它们与真实总体平均值μ的距离稍微近一些。除以一个较小的数(n−1)会略微增大方差估计值,从而抵消这种效应。对于初学者而言,主要内容是标准统计软件和库在从样本数据计算方差时使用 n−1。
更大的方差表示数据点平均而言距离平均值更远(更分散)。更小的方差表示数据点更紧密地聚集在平均值周围。
方差的一个缺点是它的单位。如果你的数据表示身高(单位为厘米,cm),那么方差的单位将是平方厘米(cm²),这在原始数据背景下难以直接理解。这将我们引向标准差。
标准差就是方差的平方根。它通常比方差更受青睐,因为它将离散程度度量恢复到与原始数据相同的单位,使其更易于理解。
对于总体,标准差(用σ表示)为:
σ=σ2=N∑i=1N(xi−μ)2对于样本,标准差(用s表示)为:
s=s2=n−1∑i=1n(xi−xˉ)2标准差提供了数据点与平均值的典型或平均距离的度量。
让我们看看两组具有相同平均值但不同标准差的数据集。
两组数据集的平均值都可能在75左右。数据集A(蓝色)的值紧密聚集,导致标准差较低。数据集B(粉色)的值分布范围更广,导致标准差较高。
理解方差和标准差在统计学和机器学习中很基本。它们用于:
尽管极差可以快速了解总体分散程度,但方差和标准差提供了更详细、更广泛使用的衡量数据如何围绕中心值聚集的指标。你将在本章后面“用Python计算描述性统计量”一节中学习如何使用Python高效计算这些量。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造