现在我们已经讨论了描述性统计的各项基础知识,接下来让我们实际操作一下。这项实践练习将引导你为一小份数据集计算均值、中位数、众数、极差、方差和标准差。至少手动计算一次这些值,有助于巩固你对这些值所代表意义的理解,然后再使用软件工具。
我们的样本数据集:考试分数
假设一个小型班级进行了一次小测验,他们的成绩(满分100分)如下:
[85, 90, 78, 92, 85, 88, 76, 95, 85, 90]
这个列表代表了我们的数据集。让我们使用学过的统计方法来分析这些分数。
计算集中趋势衡量指标
这些统计量帮助我们了解数据的“中心”或典型值。
1. 均值(平均值)
均值是所有数值的总和除以数值的数量。公式是:
xˉ=n∑i=1nxi
在此,xi 表示每个分数,n 是分数总数。
- 分数总和: 85+90+78+92+85+88+76+95+85+90=864
- 分数数量 (n): 10
- 均值: xˉ=10864=86.4
本次测验的平均分数是86.4。
2. 中位数(中间值)
中位数是数据排序后的中间值。如果数据点数量为偶数,则是两个中间值的平均值。
- 首先,对分数进行排序:
[76, 78, 85, 85, 85, 88, 90, 90, 92, 95]
- 分数数量 (n): 10(偶数)
- 中间位置: 对于 n=10,中间位置是第5个和第6个值。
- 中间位置的值: 第5个分数是85,第6个分数是88。
- 中位数: Me=285+88=2173=86.5
中位数是86.5。半数学生得分低于86.5,另半数学生得分高于86.5。
3. 众数(最常出现的值)
众数是数据集中出现次数最多的值。
- 排序后的分数:
[76, 78, 85, 85, 85, 88, 90, 90, 92, 95]
- 出现次数:
- 76: 1次
- 78: 1次
- 85: 3次
- 88: 1次
- 90: 2次
- 92: 1次
- 95: 1次
- 众数: 分数85出现次数最多(3次)。
众数分数是85。
计算离散程度衡量指标(变异性)
这些统计量告诉我们数据点是如何分散或离散的。
1. 极差
极差是最高值和最低值之间的差。
- 最高分 (Max): 95
- 最低分 (Min): 76
- 极差: Max−Min=95−76=19
分数跨度为19分。
2. 方差(样本方差,s2)
方差衡量每个分数与均值的平均平方差。我们使用样本方差公式(除以 n−1),因为我们的分数代表了学生潜在表现的一个样本。
The formula is:
s2=n−1∑i=1n(xi−xˉ)2
让我们逐一分析:
- 均值 (xˉ): 我们计算得出为86.4。
- 计算与均值的偏差 (xi−xˉ):
- 85−86.4=−1.4
- 90−86.4=3.6
- 78−86.4=−8.4
- 92−86.4=5.6
- 85−86.4=−1.4
- 88−86.4=1.6
- 76−86.4=−10.4
- 95−86.4=8.6
- 85−86.4=−1.4
- 90−86.4=3.6
- 将偏差平方 ((xi−xˉ)2):
- (−1.4)2=1.96
- (3.6)2=12.96
- (−8.4)2=70.56
- (5.6)2=31.36
- (−1.4)2=1.96
- (1.6)2=2.56
- (−10.4)2=108.16
- (8.6)2=73.96
- (−1.4)2=1.96
- (3.6)2=12.96
- 对平方偏差求和 (∑(xi−xˉ)2):
1.96+12.96+70.56+31.36+1.96+2.56+108.16+73.96+1.96+12.96=318.4
- 除以 n−1: 在这里,n=10,所以 n−1=9。
- 方差 (s2): 9318.4≈35.38
样本方差大约是35.38。这个值以“平方点”为单位,不太直观。
3. 标准差(样本标准差,s)
标准差是方差的平方根。它为我们提供了衡量数据分散程度的指标,以原始单位(测验分数)表示。
The formula is:
s=s2
- 标准差 (s): 35.38≈5.95
样本标准差大约是5.95分。这表明,平均而言,分数倾向于偏离均值86.4分约5.95分。
结果总结
对于我们的数据集 [85, 90, 78, 92, 85, 88, 76, 95, 85, 90]:
- 均值: 86.4
- 中位数: 86.5
- 众数: 85
- 极差: 19
- 方差 (s2): 大约35.38
- 标准差 (s): 大约5.95
均值和中位数非常接近,表明分数分布相对对称地围绕中心。众数略低。标准差让我们对围绕平均分数的典型分散程度有所了解。
频率分布与可视化
我们还可以查看分数在特定范围(区间)内的频率。让我们将分数按5个单位的宽度分组:
- 75-79:2个分数 (76, 78)
- 80-84:0个分数
- 85-89:4个分数 (85, 85, 85, 88)
- 90-94:3个分数 (90, 90, 92)
- 95-99:1个分数 (95)
这种频率分布可以使用直方图进行可视化:
直方图显示了学生分数在5分区间内的频率。最高的条形对应85-89的范围,反映了众数(85)落在这个区间内。
使用工具
虽然手动计算对于学习有益,但实际操作中,你会使用软件工具。Google 表格或 Microsoft Excel 等电子表格程序具有类似 AVERAGE()、MEDIAN()、MODE.SNGL()、MAX()、MIN()、VAR.S() 和 STDEV.S() 等功能。Python等编程语言,结合像 NumPy 或 Pandas 这样的库,提供类似的功能(例如 mean()、median()、mode()、var()、std()),这使得这些计算毫不费力,特别是对于大型数据集。
本次实践练习展示了如何计算基本描述性统计量。这些数字首先提供了数据特点的重要总结,为更详细的分析提供了起点。