您已加载数据,并准备开始分析。了解任何数据集的第一步通常是计算基本的描述性统计量。这些数字概括了数据的主要特征,为您快速概览其中心数值和数值的分散程度。可以把它们看作数据集的指引。
我们将着重介绍两种主要的汇总统计量:集中趋势度量和离散程度度量(或变异度)。
集中趋势度量:寻找中心
集中趋势度量旨在描述数据集中“典型”或“中心”的数值。哪个单一数字最能代表整个群体?最常用的三个度量是均值、中位数和众数。
均值(平均值)
均值可能是最常用的度量。它就是所有数值的总和除以数值的数量。如果您有一个包含 n 个观测值的数据集,表示为 x1,x2,...,xn,则样本均值(通常表示为 xˉ)的计算方法是:
xˉ=n∑i=1nxi=nx1+x2+...+xn
示例: 假设我们有5名员工的年龄:[25, 30, 28, 45, 28]。
总和是 25+30+28+45+28=156。
数值的数量是 n=5。
平均年龄是 xˉ=156/5=31.2 岁。
均值使用了数据集中的每个数值,这很好,但它也使得它对异常值(非常高或非常低的数值)敏感。那个45岁的人拉高了平均年龄。如果那个值是85而不是45,那么均值会大幅增加,即使大多数员工都年轻得多。
中位数(Me):中间值
中位数是数据按升序排列时的中间数值。它将数据集精确地一分为二:50%的数值低于中位数,50%的数值高于中位数。
如何找到中位数:
- 将数据从小到大排序。
- 如果数值数量为奇数(n 为奇数),中位数是中间的数值。
- 如果数值数量为偶数(n 为偶数),中位数是中间两个数值的平均值。
示例(n为奇数): 使用已排序的年龄 [25, 28, 28, 30, 45]。
数值的数量是 n=5(奇数)。
中间数值是第 (n+1)/2=(5+1)/2=3 个数值。
中位数 (Me) 是 28。
示例(n为偶数): 我们再添加一个年龄,22:[22, 25, 28, 28, 30, 45]。
数值的数量是 n=6(偶数)。
中间的两个数值分别是第 n/2=6/2=3 个和第 (n/2)+1=4 个数值。它们是 28 和 28。
中位数 (Me) 是这两个数的平均值:(28+28)/2=28。
中位数受异常值的影响远小于均值。如果我们最年长的员工是85岁而不是45岁,排序后的列表将是 [25, 28, 28, 30, 85],中位数仍然是28。这使得中位数在具有偏态分布或极端值的数据集中,成为“典型”数值的更好指标。
众数:最常出现的值
众数就是数据集中出现频率最高的数值。
示例: 在我们原始的年龄数据集 [25, 30, 28, 45, 28] 中,数值 28 出现两次,比其他任何数值都多。
众数是 28。
一个数据集可以有:
- 单一众数(单峰): 像我们的示例。
- 多个众数(多峰): 例如,
[2, 3, 3, 4, 5, 5, 6] 的众数是 3 和 5。
- 无众数: 如果所有数值出现频率相同(通常只出现一次)。例如,
[10, 20, 30, 40]。
众数对于分类数据(非数值数据,如“颜色”或“产品类型”)特别有用,在这些情况下,均值和中位数没有意义。对于数值数据,它会告诉您最常见的特定数值。
何时使用哪种集中趋势度量?
- 对于没有明显异常值的对称数值数据,使用均值。
- 对于偏态数值数据或有明显异常值的数据,使用中位数。
- 对于分类数据或当识别最常见的数值很重要时,使用众数。
通常,同时报告均值和中位数能提供更全面的情况,特别是当它们差异较大时,这表明可能存在偏态或异常值。
样本年龄 [25, 30, 28, 45, 28] 的直方图,显示了计算出的均值、中位数和众数。请注意,单个较高值(45)如何使均值略高于中位数和众数。
离散程度度量:量化 (quantization)变异性
了解数据的中心仅是其中一部分。您还需要知道数据点的分散程度。它们是紧密聚集在均值周围,还是广泛分散?离散程度度量(或变异度)回答了这个问题。
范围
范围是最简单的离散度量。它是数据集中最大值和最小值之间的差。
范围=最大值−最小值
示例: 对于我们的年龄 [25, 28, 28, 30, 45]:
最大值 = 45
最小值 = 25
范围 = 45 - 25 = 20 岁。
范围能快速了解数据的总跨度,但像均值一样,它对异常值高度敏感。一个非常高或非常低的数值就会显著影响范围。它也无法告诉你数据在极端值之间是如何分布的。
方差 (s2)
方差衡量每个数据点与均值的平均平方差。它让你了解整体的分散程度。方差越大意味着数据点往往离均值更远;方差越小意味着它们往往离均值更近。
样本方差 (s2) 的公式看起来有些复杂,但思路直接明了:
s2=n−1∑i=1n(xi−xˉ)2
我们来分解一下:
- (xi−xˉ):找出每个数据点 (xi) 与均值 (xˉ) 之间的差。这些称为偏差。
- (xi−xˉ)2:平方每个偏差。这会使所有值变为正数(这样负偏差和正偏差就不会相互抵消),并突出较大的偏差。
- ∑i=1n(xi−xˉ)2:将所有平方偏差相加。
- /(n−1):除以观测值数量减一 (n−1)。我们对样本方差使用 n−1,因为它能更好地、无偏地估计真实的总体方差。如果计算整个总体的方差,你会除以 N(总体大小)。出于入门目的,我们通常使用样本。
示例: 使用年龄 [25, 28, 28, 30, 45] 和均值 xˉ=31.2:
- 偏差 (xi−xˉ):
- 25−31.2=−6.2
- 28−31.2=−3.2
- 28−31.2=−3.2
- 30−31.2=−1.2
- 45−31.2=13.8
- 平方偏差 (xi−xˉ)2:
- (−6.2)2=38.44
- (−3.2)2=10.24
- (−3.2)2=10.24
- (−1.2)2=1.44
- (13.8)2=190.44
- 平方偏差之和:38.44+10.24+10.24+1.44+190.44=250.8
- 样本方差 s2=250.8/(5−1)=250.8/4=62.7
方差是 62.7。这个数字意味着什么?它是“平方年”单位,这不是很直观。这就是标准差的作用。
标准差 (s 或 σ)
标准差就是方差的平方根。之所以常用,因为它将离散度量恢复到数据的原始单位。
标准差(s)=方差=s2
示例: 对于我们的年龄,方差 s2=62.7。
标准差 s=62.7≈7.92 岁。
标准差为您提供了数据点与均值的典型或平均距离度量。标准差为7.92岁表明,平均而言,员工的年龄与平均年龄31.2相差约7.9岁。
- 低标准差: 数据点紧密聚集在均值周围。
- 高标准差: 数据点分散在更宽的数值范围。
与均值一样,方差和标准差对方差和标准差很敏感,因为它们基于均值,并涉及平方偏差,这会严重影响极端值。
这些汇总统计量(均值、中位数、众数、范围、方差、标准差)是了解数据的基本组成部分。计算它们通常是任何探索性数据分析的第一步,在您进行可视化或更复杂建模之前,它会提供数据集特征的简洁量化描述。