数据的中心度量,例如平均值、中位数和众数,能提供有用信息,但这无法反映数据的全貌。想象两个城市:城市A一周的日平均气温是 {18, 19, 20, 20, 21, 22, 20} 摄氏度,而城市B是 {10, 30, 5, 15, 35, 25, 0} 摄氏度。如果你计算两个城市的平均气温,你会发现都是 20°C。然而,这两个城市的天气体验却大不相同!城市A的气温非常稳定,而城市B的气温则波动很大。这就是为什么衡量分散度的指标(也称为离散度或变异性指标)变得很重要。它们衡量数据集中各个数据点与平均值偏离的程度。下面介绍衡量这种分散度的几种常见方法。极差最简单的分散度衡量方法是极差。它的计算方法是用数据集中的最大值减去最小值。$$ \text{极差} = \text{最大值} - \text{最小值} $$城市A:极差 = 22°C - 18°C = 4°C 城市B:极差 = 35°C - 0°C = 35°C极差可以让你快速了解数据覆盖的整个范围。正如你所看到的,城市B的极差远大于城市A,这反映了其更大的气温变异性。极差虽然计算简便,但有一个明显的缺点:它只考虑了两个最极端的值。一个非常高或非常低的值(异常值)可以大幅改变极差,可能对整体数据分散度给出误导性描述。方差为了得到一种考虑所有数据点的更准确的分散度衡量方法,我们使用方差。方差衡量的是每个数据点与数据集平均值之间平方差的平均值。对差值进行平方有两个作用:它保证所有差值都是正数(这样负差值和正差值就不会相互抵消)。它给较大的差值赋予更大的权重。具体来说,对于数据集 $x_1, x_2, ..., x_n$ 且平均值为 $\bar{x}$,方差涉及以下步骤:计算平均值 ($\bar{x}$)。找到每个数据点与平均值之间的差值:$(x_i - \bar{x})$。对每个差值进行平方:$(x_i - \bar{x})^2$。计算这些平方差的平均值。总体方差(表示为 $\sigma^2$,读作“西格玛平方”)和样本方差(表示为 $s^2$)的公式略有不同。出于介绍目的,主要关注的是其理念。一个常用的样本方差公式是:$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$除以 $n-1$ 而不是 $n$ 是从样本估计总体方差时使用的技术调整,提供一个更好的估计值。让我们计算城市A的方差(平均值 $\bar{x} = 20$): 差值:(18-20), (19-20), (20-20), (20-20), (21-20), (22-20), (20-20) = {-2, -1, 0, 0, 1, 2, 0} 平方差:{4, 1, 0, 0, 1, 4, 0} 平方差之和:4 + 1 + 0 + 0 + 1 + 4 + 0 = 10 样本方差 $s^2 = 10 / (7-1) = 10 / 6 \approx 1.67$现在是城市B的方差(平均值 $\bar{x} = 20$): 差值:(10-20), (30-20), (5-20), (15-20), (35-20), (25-20), (0-20) = {-10, 10, -15, -5, 15, 5, -20} 平方差:{100, 100, 225, 25, 225, 25, 400} 平方差之和:100 + 100 + 225 + 25 + 225 + 25 + 400 = 1100 样本方差 $s^2 = 1100 / (7-1) = 1100 / 6 \approx 183.33$正如预期,城市B的方差(183.33)远高于城市A(1.67),表明更大的分散度。方差的一个局限性是它的单位。如果原始数据是摄氏度 (°C),那么方差的单位就是摄氏度平方 (°C²)。这与原始数据直接关联起来解释并不太直观。标准差这让我们引出最常用的分散度衡量方法:标准差。它就是方差的平方根。$$ \text{标准差} = \sqrt{\text{方差}} $$对于总体标准差,它用 $\sigma$(西格玛)表示;对于样本标准差,它用 $s$ 表示。$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$标准差的主要优点是,它将分散度的衡量值转换回数据的原始单位。城市A:标准差 $s = \sqrt{1.67} \approx 1.29$ °C 城市B:标准差 $s = \sqrt{183.33} \approx 13.54$ °C现在我们可以说一些更直观的话:在城市A,气温通常偏离平均值(20°C)约1.29°C。在城市B,气温通常偏离平均值(20°C)约13.54°C。这清楚地显示了城市B气温更大的变异性,并以易于理解的单位表示出来。较小的标准差表明数据点倾向于接近平均值(低变异性,高一致性)。较大的标准差表明数据点分布在一个更宽的数值范围上(高变异性,低一致性)。{"layout": {"title": {"text": "温度分布:相同的平均值,不同的分散度"}, "xaxis": {"title": {"text": "温度 (°C)"}, "range": [-10, 45]}, "yaxis": {"title": {"text": "密度"}}, "barmode": "overlay", "legend": {"title": {"text": "城市"}}}, "data": [{"type": "histogram", "x": [18, 19, 20, 20, 21, 22, 20], "name": "城市A(标准差 ≈ 1.3)", "marker": {"color": "#228be6"}, "opacity": 0.7, "histnorm": "probability density"}, {"type": "histogram", "x": [10, 30, 5, 15, 35, 25, 0], "name": "城市B(标准差 ≈ 13.5)", "marker": {"color": "#fd7e14"}, "opacity": 0.7, "histnorm": "probability density"}]}此直方图比较了城市A和城市B的温度分布。两者平均值均为20°C,但城市B(橙色)的温度分散度(由分布的宽度和标准差SD表明)远大于城市A(蓝色)。了解这些分散度衡量方法——极差、方差,特别是标准差——对于描述数据集来说非常重要。它们提供了关于数据内部一致性和变异性的见解,这通常与平均值同样重要。