趋近智
在分析数据集时,我们首先想了解的事情之一是它的“中心”或能代表数据的典型值。数据点倾向于聚集在哪里?集中趋势的度量提供了这些信息。最常见的三个度量是均值、中位数和众数。每个度量都从不同角度展现数据中心,理解它们的区别对于准确解释数据很重要。
均值,通常称为平均值,是最常用的集中趋势度量。它通过将数据集中所有值求和,然后除以值的数量来计算。
对于一个包含 个值的数列 ,样本均值通常记作 (读作“x拔”),计算方式如下:
示例: 考虑5个人的年龄:22, 25, 21, 30, 22。 计算平均年龄:
平均年龄为24岁。
何时使用均值: 当数据分布大致对称且没有极端值(异常值)时,均值是衡量中心的好度量。
对异常值的敏感性: 均值的一个重要缺点是它对异常值敏感。异常值是指与其他观测值显著不同的数据点。让我们将示例中年龄30改为90(可能是数据录入错误):22, 25, 21, 90, 22。 新的平均值为:
平均值从24跳到36,这比组内大多数年龄都要高。单个异常值严重影响了均值,使其可能不太能代表典型年龄。
中位数是经过从小到大排序的数据集中的中间值。它将数据分成相等的两半:50%的数据点低于中位数,50%高于中位数。
计算方法:
示例( 为奇数): 使用原始年龄数据:22, 25, 21, 30, 22。
示例( 为偶数): 考虑四个年龄:21, 22, 25, 30。
何时使用中位数: 中位数在处理偏斜分布或包含异常值的数据集时特别有用。因为它只取决于中间值,所以不受分布两端极端值的影响。
对异常值的抗性: 让我们回顾异常值的示例:21, 22, 22, 25, 90(已排序的年龄)。 中位数仍然是第3个值,即22。异常值(90)没有改变中位数,这使得它在这种情况下比均值(36)更能可靠地度量集中趋势。
众数是数据集中出现频率最高的值。
计算方法: 只需计算每个值的出现次数。出现次数最多的值就是众数。
示例: 使用原始年龄数据:22, 25, 21, 30, 22。 值22出现两次,比其他任何年龄都多。众数为22。
特点:
何时使用众数: 众数用于识别数据集中最常见的类别或值,特别适用于分类数据或有限数量的离散数值数据。与均值或中位数相比,它作为连续数值数据的主要中心度量较少使用。
| 度量 | 计算方法 | 用途 | 对异常值的敏感性 | 适用数据类型 |
|---|---|---|---|---|
| 均值 | 求和 / 计数 | 对称数据,无异常值 | 高 | 数值型 |
| 中位数 | 中间值(排序数据) | 偏斜数据,含异常值数据 | 低 | 数值型(序数型) |
| 众数 | 最常出现的值 | 分类数据,找到最常见值 | 低 | 数值型,分类型 |
均值和中位数之间的关系也可以提供关于数据分布形状的线索:
原始年龄数据集 [21, 22, 22, 25, 30] 的分布。中位数和众数均为22,而均值略高,为24,被较大的值30拉高。
选择合适的度量取决于你的数据性质和你试图回答的问题。理解这三者能更全面地展现数据的集中趋势。在接下来的章节中,我们将讨论如何度量围绕该中心的数据离散程度或变异性。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造