现在我们已经讨论了描述性统计的各项基础知识,接下来让我们实际操作一下。这项实践练习将引导你为一小份数据集计算均值、中位数、众数、极差、方差和标准差。至少手动计算一次这些值,有助于巩固你对这些值所代表意义的理解,然后再使用软件工具。我们的样本数据集:考试分数假设一个小型班级进行了一次小测验,他们的成绩(满分100分)如下:[85, 90, 78, 92, 85, 88, 76, 95, 85, 90]这个列表代表了我们的数据集。让我们使用学过的统计方法来分析这些分数。计算集中趋势衡量指标这些统计量帮助我们了解数据的“中心”或典型值。1. 均值(平均值)均值是所有数值的总和除以数值的数量。公式是: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$ 在此,$x_i$ 表示每个分数,$n$ 是分数总数。分数总和: $85 + 90 + 78 + 92 + 85 + 88 + 76 + 95 + 85 + 90 = 864$分数数量 (n): $10$均值: $\bar{x} = \frac{864}{10} = 86.4$本次测验的平均分数是86.4。2. 中位数(中间值)中位数是数据排序后的中间值。如果数据点数量为偶数,则是两个中间值的平均值。首先,对分数进行排序: [76, 78, 85, 85, 85, 88, 90, 90, 92, 95]分数数量 (n): $10$(偶数)中间位置: 对于 $n=10$,中间位置是第5个和第6个值。中间位置的值: 第5个分数是85,第6个分数是88。中位数: $M_e = \frac{85 + 88}{2} = \frac{173}{2} = 86.5$中位数是86.5。半数学生得分低于86.5,另半数学生得分高于86.5。3. 众数(最常出现的值)众数是数据集中出现次数最多的值。排序后的分数: [76, 78, 85, 85, 85, 88, 90, 90, 92, 95]出现次数:76: 1次78: 1次85: 3次88: 1次90: 2次92: 1次95: 1次众数: 分数85出现次数最多(3次)。众数分数是85。计算离散程度衡量指标(变异性)这些统计量告诉我们数据点是如何分散或离散的。1. 极差极差是最高值和最低值之间的差。最高分 (Max): 95最低分 (Min): 76极差: $Max - Min = 95 - 76 = 19$分数跨度为19分。2. 方差(样本方差,$s^2$)方差衡量每个分数与均值的平均平方差。我们使用样本方差公式(除以 $n-1$),因为我们的分数代表了学生潜在表现的一个样本。The formula is: $$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$让我们逐一分析:均值 ($\bar{x}$): 我们计算得出为86.4。计算与均值的偏差 ($x_i - \bar{x}$):$85 - 86.4 = -1.4$$90 - 86.4 = 3.6$$78 - 86.4 = -8.4$$92 - 86.4 = 5.6$$85 - 86.4 = -1.4$$88 - 86.4 = 1.6$$76 - 86.4 = -10.4$$95 - 86.4 = 8.6$$85 - 86.4 = -1.4$$90 - 86.4 = 3.6$将偏差平方 ($(x_i - \bar{x})^2$):$(-1.4)^2 = 1.96$$(3.6)^2 = 12.96$$(-8.4)^2 = 70.56$$(5.6)^2 = 31.36$$(-1.4)^2 = 1.96$$(1.6)^2 = 2.56$$(-10.4)^2 = 108.16$$(8.6)^2 = 73.96$$(-1.4)^2 = 1.96$$(3.6)^2 = 12.96$对平方偏差求和 ($\sum (x_i - \bar{x})^2$): $1.96 + 12.96 + 70.56 + 31.36 + 1.96 + 2.56 + 108.16 + 73.96 + 1.96 + 12.96 = 318.4$除以 $n-1$: 在这里,$n=10$,所以 $n-1=9$。方差 ($s^2$): $\frac{318.4}{9} \approx 35.38$样本方差大约是35.38。这个值以“平方点”为单位,不太直观。3. 标准差(样本标准差,$s$)标准差是方差的平方根。它为我们提供了衡量数据分散程度的指标,以原始单位(测验分数)表示。The formula is: $$ s = \sqrt{s^2} $$标准差 ($s$): $\sqrt{35.38} \approx 5.95$样本标准差大约是5.95分。这表明,平均而言,分数倾向于偏离均值86.4分约5.95分。结果总结对于我们的数据集 [85, 90, 78, 92, 85, 88, 76, 95, 85, 90]:均值: 86.4中位数: 86.5众数: 85极差: 19方差 ($s^2$): 大约35.38标准差 ($s$): 大约5.95均值和中位数非常接近,表明分数分布相对对称地围绕中心。众数略低。标准差让我们对围绕平均分数的典型分散程度有所了解。频率分布与可视化我们还可以查看分数在特定范围(区间)内的频率。让我们将分数按5个单位的宽度分组:75-79:2个分数 (76, 78)80-84:0个分数85-89:4个分数 (85, 85, 85, 88)90-94:3个分数 (90, 90, 92)95-99:1个分数 (95)这种频率分布可以使用直方图进行可视化:{"layout":{"title":"测验分数分布","xaxis":{"title":"分数范围"},"yaxis":{"title":"学生人数"},"bargap":0.1,"template":"simple_white"},"data":[{"type":"histogram","x":[85,90,78,92,85,88,76,95,85,90],"marker":{"color":"#228be6"},"xbins":{"start":75,"end":100,"size":5}}]}直方图显示了学生分数在5分区间内的频率。最高的条形对应85-89的范围,反映了众数(85)落在这个区间内。使用工具虽然手动计算对于学习有益,但实际操作中,你会使用软件工具。Google 表格或 Microsoft Excel 等电子表格程序具有类似 AVERAGE()、MEDIAN()、MODE.SNGL()、MAX()、MIN()、VAR.S() 和 STDEV.S() 等功能。Python等编程语言,结合像 NumPy 或 Pandas 这样的库,提供类似的功能(例如 mean()、median()、mode()、var()、std()),这使得这些计算毫不费力,特别是对于大型数据集。本次实践练习展示了如何计算基本描述性统计量。这些数字首先提供了数据特点的重要总结,为更详细的分析提供了起点。