计算汇总统计量

您已加载数据，并准备开始分析。了解任何数据集的第一步通常是计算基本的描述性统计量。这些数字概括了数据的主要特征，为您快速概览其中心数值和数值的分散程度。可以把它们看作数据集的指引。

我们将着重介绍两种主要的汇总统计量：集中趋势度量和离散程度度量（或变异度）。

集中趋势度量：寻找中心

集中趋势度量旨在描述数据集中“典型”或“中心”的数值。哪个单一数字最能代表整个群体？最常用的三个度量是均值、中位数和众数。

均值（平均值）

均值可能是最常用的度量。它就是所有数值的总和除以数值的数量。如果您有一个包含 $n$ 个观测值的数据集，表示为 $x_1, x_2, ..., x_n$ ，则样本均值（通常表示为 $\bar{x}$ ）的计算方法是：

\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + ... + x_n}{n}

示例： 假设我们有5名员工的年龄：[25, 30, 28, 45, 28]。总和是 $25 + 30 + 28 + 45 + 28 = 156$ 。数值的数量是 $n = 5$ 。平均年龄是 $\bar{x} = 156 / 5 = 31.2$ 岁。

均值使用了数据集中的每个数值，这很好，但它也使得它对异常值（非常高或非常低的数值）敏感。那个45岁的人拉高了平均年龄。如果那个值是85而不是45，那么均值会大幅增加，即使大多数员工都年轻得多。

中位数（ $M_e$ ）：中间值

中位数是数据按升序排列时的中间数值。它将数据集精确地一分为二：50%的数值低于中位数，50%的数值高于中位数。

如何找到中位数：

将数据从小到大排序。
如果数值数量为奇数（ $n$ 为奇数），中位数是中间的数值。
如果数值数量为偶数（ $n$ 为偶数），中位数是中间两个数值的平均值。

示例（n为奇数）： 使用已排序的年龄 [25, 28, 28, 30, 45]。数值的数量是 $n = 5$ （奇数）。中间数值是第 $(n+1)/2 = (5+1)/2 = 3$ 个数值。中位数 ( $M_e$ ) 是 28。

示例（n为偶数）： 我们再添加一个年龄，22：[22, 25, 28, 28, 30, 45]。数值的数量是 $n = 6$ （偶数）。中间的两个数值分别是第 $n/2 = 6/2 = 3$ 个和第 $(n/2)+1 = 4$ 个数值。它们是 28 和 28。中位数 ( $M_e$ ) 是这两个数的平均值： $(28 + 28) / 2 = 28$ 。

中位数受异常值的影响远小于均值。如果我们最年长的员工是85岁而不是45岁，排序后的列表将是 [25, 28, 28, 30, 85]，中位数仍然是28。这使得中位数在具有偏态分布或极端值的数据集中，成为“典型”数值的更好指标。

众数：最常出现的值

众数就是数据集中出现频率最高的数值。

示例： 在我们原始的年龄数据集 [25, 30, 28, 45, 28] 中，数值 28 出现两次，比其他任何数值都多。众数是 28。

一个数据集可以有：

单一众数（单峰）： 像我们的示例。
多个众数（多峰）： 例如，[2, 3, 3, 4, 5, 5, 6] 的众数是 3 和 5。
无众数： 如果所有数值出现频率相同（通常只出现一次）。例如，[10, 20, 30, 40]。

众数对于分类数据（非数值数据，如“颜色”或“产品类型”）特别有用，在这些情况下，均值和中位数没有意义。对于数值数据，它会告诉您最常见的特定数值。

何时使用哪种集中趋势度量？

对于没有明显异常值的对称数值数据，使用均值。
对于偏态数值数据或有明显异常值的数据，使用中位数。
对于分类数据或当识别最常见的数值很重要时，使用众数。

通常，同时报告均值和中位数能提供更全面的情况，特别是当它们差异较大时，这表明可能存在偏态或异常值。

样本年龄 [25, 30, 28, 45, 28] 的直方图，显示了计算出的均值、中位数和众数。请注意，单个较高值（45）如何使均值略高于中位数和众数。

离散程度度量：量化 (quantization)变异性

了解数据的中心仅是其中一部分。您还需要知道数据点的分散程度。它们是紧密聚集在均值周围，还是广泛分散？离散程度度量（或变异度）回答了这个问题。

范围

范围是最简单的离散度量。它是数据集中最大值和最小值之间的差。

\text{范围} = \text{最大值} - \text{最小值}

示例： 对于我们的年龄 [25, 28, 28, 30, 45]：最大值 = 45 最小值 = 25 范围 = 45 - 25 = 20 岁。

范围能快速了解数据的总跨度，但像均值一样，它对异常值高度敏感。一个非常高或非常低的数值就会显著影响范围。它也无法告诉你数据在极端值之间是如何分布的。

方差 ( $s^2$ )

方差衡量每个数据点与均值的平均平方差。它让你了解整体的分散程度。方差越大意味着数据点往往离均值更远；方差越小意味着它们往往离均值更近。

样本方差 ( $s^2$ ) 的公式看起来有些复杂，但思路直接明了：

s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}

我们来分解一下：

$(x_i - \bar{x})$ ：找出每个数据点 ( $x_i$ ) 与均值 ( $\bar{x}$ ) 之间的差。这些称为偏差。
$(x_i - \bar{x})^2$ ：平方每个偏差。这会使所有值变为正数（这样负偏差和正偏差就不会相互抵消），并突出较大的偏差。
$\sum_{i=1}^{n} (x_i - \bar{x})^2$ ：将所有平方偏差相加。
$/ (n-1)$ ：除以观测值数量减一 ( $n-1$ )。我们对样本方差使用 $n-1$ ，因为它能更好地、无偏地估计真实的总体方差。如果计算整个总体的方差，你会除以 $N$ （总体大小）。出于入门目的，我们通常使用样本。

示例： 使用年龄 [25, 28, 28, 30, 45] 和均值 $\bar{x} = 31.2$ ：

偏差 $(x_i - \bar{x})$ $(x_{i} - \overset{x}{ˉ})$ ：
- $25 - 31.2 = -6.2$
- $28 - 31.2 = -3.2$
- $28 - 31.2 = -3.2$
- $30 - 31.2 = -1.2$
- $45 - 31.2 = 13.8$
平方偏差 $(x_i - \bar{x})^2$ $(x_{i} - \overset{x}{ˉ})^{2}$ ：
- $(-6.2)^2 = 38.44$
- $(-3.2)^2 = 10.24$
- $(-3.2)^2 = 10.24$
- $(-1.2)^2 = 1.44$
- $(13.8)^2 = 190.44$
平方偏差之和： $38.44 + 10.24 + 10.24 + 1.44 + 190.44 = 250.8$
样本方差 $s^2 = 250.8 / (5 - 1) = 250.8 / 4 = 62.7$

方差是 62.7。这个数字意味着什么？它是“平方年”单位，这不是很直观。这就是标准差的作用。

标准差 ( $s$ 或 $\sigma$ )

标准差就是方差的平方根。之所以常用，因为它将离散度量恢复到数据的原始单位。

\text{标准差} (s) = \sqrt{\text{方差}} = \sqrt{s^2}

示例： 对于我们的年龄，方差 $s^2 = 62.7$ 。标准差 $s = \sqrt{62.7} \approx 7.92$ 岁。

标准差为您提供了数据点与均值的典型或平均距离度量。标准差为7.92岁表明，平均而言，员工的年龄与平均年龄31.2相差约7.9岁。

低标准差： 数据点紧密聚集在均值周围。
高标准差： 数据点分散在更宽的数值范围。

与均值一样，方差和标准差对方差和标准差很敏感，因为它们基于均值，并涉及平方偏差，这会严重影响极端值。

这些汇总统计量（均值、中位数、众数、范围、方差、标准差）是了解数据的基本组成部分。计算它们通常是任何探索性数据分析的第一步，在您进行可视化或更复杂建模之前，它会提供数据集特征的简洁量化描述。

参考文献

OpenIntro Statistics, David M. Diez, Christopher D. Barr, and Mine Çetinkaya-Rundel, 2023 (OpenIntro) - 一本内容全面、免费提供的教科书，涵盖了包括描述性统计、集中趋势和变异性在内的基本统计概念。
Introduction to Probability and Statistics (MIT OpenCourseWare 18.05), Jeremy Orloff, Jonathan Bloom, 2014 (MIT OpenCourseWare) - 提供了一个结构化的、大学水平的统计学核心概念介绍，包括汇总统计量，适用于学术基础学习。
An Introduction to Statistical Learning with Applications in Python, Gareth James, Daniela Witten, Trevor Hastie, Rob Tibshirani, Jonathan Taylor, 2023 (Springer) - 一本备受推崇的资源，介绍了统计学习技术，其基础章节涵盖描述性统计和数据分析，现在包含 Python 应用实例。