在分析数据集时,我们首先想了解的事情之一是它的“中心”或能代表数据的典型值。数据点倾向于聚集在哪里?集中趋势的度量提供了这些信息。最常见的三个度量是均值、中位数和众数。每个度量都从不同角度展现数据中心,理解它们的区别对于准确解释数据很重要。均值(平均值)均值,通常称为平均值,是最常用的集中趋势度量。它通过将数据集中所有值求和,然后除以值的数量来计算。对于一个包含 $n$ 个值的数列 $x_1, x_2, \ldots, x_n$,样本均值通常记作 $\bar{x}$(读作“x拔”),计算方式如下:$$ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n} $$示例: 考虑5个人的年龄:22, 25, 21, 30, 22。 计算平均年龄: $$ \bar{x} = \frac{22 + 25 + 21 + 30 + 22}{5} = \frac{120}{5} = 24 $$ 平均年龄为24岁。何时使用均值: 当数据分布大致对称且没有极端值(异常值)时,均值是衡量中心的好度量。对异常值的敏感性: 均值的一个重要缺点是它对异常值敏感。异常值是指与其他观测值显著不同的数据点。让我们将示例中年龄30改为90(可能是数据录入错误):22, 25, 21, 90, 22。 新的平均值为: $$ \bar{x} = \frac{22 + 25 + 21 + 90 + 22}{5} = \frac{180}{5} = 36 $$ 平均值从24跳到36,这比组内大多数年龄都要高。单个异常值严重影响了均值,使其可能不太能代表典型年龄。中位数中位数是经过从小到大排序的数据集中的中间值。它将数据分成相等的两半:50%的数据点低于中位数,50%高于中位数。计算方法:排序数据: 将数据点按升序排列。找到中间值:如果数据点数量 ($n$) 为奇数,中位数是中间值。它的位置是 $\frac{n+1}{2}$。如果数据点数量 ($n$) 为偶数,中位数是两个中间值的平均值。它们的位置是 $\frac{n}{2}$ 和 $\frac{n}{2} + 1$。示例($n$ 为奇数): 使用原始年龄数据:22, 25, 21, 30, 22。排序数据:21, 22, 22, 25, 30。找到中间值($n=5$,位置是 $\frac{5+1}{2} = 3$)。第3个值是22。 中位年龄为22岁。示例($n$ 为偶数): 考虑四个年龄:21, 22, 25, 30。数据已排序。找到中间值($n=4$,位置是 $\frac{4}{2}=2$ 和 $\frac{4}{2}+1=3$)。第2个值是22,第3个值是25。计算两个中间值的平均值:$\frac{22 + 25}{2} = 23.5$。 中位年龄为23.5岁。何时使用中位数: 中位数在处理偏斜分布或包含异常值的数据集时特别有用。因为它只取决于中间值,所以不受分布两端极端值的影响。对异常值的抗性: 让我们回顾异常值的示例:21, 22, 22, 25, 90(已排序的年龄)。 中位数仍然是第3个值,即22。异常值(90)没有改变中位数,这使得它在这种情况下比均值(36)更能可靠地度量集中趋势。众数众数是数据集中出现频率最高的值。计算方法: 只需计算每个值的出现次数。出现次数最多的值就是众数。示例: 使用原始年龄数据:22, 25, 21, 30, 22。 值22出现两次,比其他任何年龄都多。众数为22。特点:多个众数: 如果多个值拥有最高的出现频率,一个数据集可以有一个以上的众数(如果两个众数则为双峰,如果两个以上则为多峰)。示例:1, 1, 2, 3, 3, 4。众数为1和3。无众数: 如果所有值出现频率相同(通常只出现一次),则数据集没有众数。示例:1, 2, 3, 4, 5。分类数据: 众数是唯一可用于分类数据(代表类别的数据,例如颜色或类型)的集中趋势度量。示例:颜色 [Red, Blue, Blue, Green, Red, Blue]。众数为蓝色。何时使用众数: 众数用于识别数据集中最常见的类别或值,特别适用于分类数据或有限数量的离散数值数据。与均值或中位数相比,它作为连续数值数据的主要中心度量较少使用。均值、中位数、众数:快速比较度量计算方法用途对异常值的敏感性适用数据类型均值求和 / 计数对称数据,无异常值高数值型中位数中间值(排序数据)偏斜数据,含异常值数据低数值型(序数型)众数最常出现的值分类数据,找到最常见值低数值型,分类型均值和中位数之间的关系也可以提供关于数据分布形状的线索:对称分布: 均值 ≈ 中位数 ≈ 众数。右偏分布(尾部向右): 均值 > 中位数。异常值将均值拉高。左偏分布(尾部向左): 均值 < 中位数。异常值将均值拉低。{"layout": {"title": "均值、中位数和众数示例(年龄)", "xaxis": {"title": "年龄"}, "yaxis": {"title": "频率"}, "bargap": 0.2, "shapes": [{"type": "line", "x0": 24, "x1": 24, "y0": 0, "y1": 2, "line": {"color": "#f03e3e", "width": 2, "dash": "dash"}, "name": "均值"}, {"type": "line", "x0": 22, "x1": 22, "y0": 0, "y1": 2, "line": {"color": "#1c7ed6", "width": 2, "dash": "dot"}, "name": "中位数/众数"}], "annotations": [{"x": 24, "y": 2.1, "text": "均值 (24)", "showarrow": false, "font": {"color": "#f03e3e"}}, {"x": 22, "y": 2.3, "text": "中位数和众数 (22)", "showarrow": false, "font": {"color": "#1c7ed6"}}]}, "data": [{"type": "histogram", "x": [21, 22, 22, 25, 30], "marker": {"color": "#74c0fc"}, "name": "年龄"}]}原始年龄数据集 [21, 22, 22, 25, 30] 的分布。中位数和众数均为22,而均值略高,为24,被较大的值30拉高。选择合适的度量取决于你的数据性质和你试图回答的问题。理解这三者能更全面地展现数据的集中趋势。在接下来的章节中,我们将讨论如何度量围绕该中心的数据离散程度或变异性。