趋近智
您已加载数据,并准备开始分析。了解任何数据集的第一步通常是计算基本的描述性统计量。这些数字概括了数据的主要特征,为您快速概览其中心数值和数值的分散程度。可以把它们看作数据集的指引。
我们将着重介绍两种主要的汇总统计量:集中趋势度量和离散程度度量(或变异度)。
集中趋势度量旨在描述数据集中“典型”或“中心”的数值。哪个单一数字最能代表整个群体?最常用的三个度量是均值、中位数和众数。
均值可能是最常用的度量。它就是所有数值的总和除以数值的数量。如果您有一个包含 n 个观测值的数据集,表示为 x1,x2,...,xn,则样本均值(通常表示为 xˉ)的计算方法是:
xˉ=n∑i=1nxi=nx1+x2+...+xn示例: 假设我们有5名员工的年龄:[25, 30, 28, 45, 28]。
总和是 25+30+28+45+28=156。
数值的数量是 n=5。
平均年龄是 xˉ=156/5=31.2 岁。
均值使用了数据集中的每个数值,这很好,但它也使得它对异常值(非常高或非常低的数值)敏感。那个45岁的人拉高了平均年龄。如果那个值是85而不是45,那么均值会大幅增加,即使大多数员工都年轻得多。
中位数是数据按升序排列时的中间数值。它将数据集精确地一分为二:50%的数值低于中位数,50%的数值高于中位数。
如何找到中位数:
示例(n为奇数): 使用已排序的年龄 [25, 28, 28, 30, 45]。
数值的数量是 n=5(奇数)。
中间数值是第 (n+1)/2=(5+1)/2=3 个数值。
中位数 (Me) 是 28。
示例(n为偶数): 我们再添加一个年龄,22:[22, 25, 28, 28, 30, 45]。
数值的数量是 n=6(偶数)。
中间的两个数值分别是第 n/2=6/2=3 个和第 (n/2)+1=4 个数值。它们是 28 和 28。
中位数 (Me) 是这两个数的平均值:(28+28)/2=28。
中位数受异常值的影响远小于均值。如果我们最年长的员工是85岁而不是45岁,排序后的列表将是 [25, 28, 28, 30, 85],中位数仍然是28。这使得中位数在具有偏态分布或极端值的数据集中,成为“典型”数值的更好指标。
众数就是数据集中出现频率最高的数值。
示例: 在我们原始的年龄数据集 [25, 30, 28, 45, 28] 中,数值 28 出现两次,比其他任何数值都多。
众数是 28。
一个数据集可以有:
[2, 3, 3, 4, 5, 5, 6] 的众数是 3 和 5。[10, 20, 30, 40]。众数对于分类数据(非数值数据,如“颜色”或“产品类型”)特别有用,在这些情况下,均值和中位数没有意义。对于数值数据,它会告诉您最常见的特定数值。
通常,同时报告均值和中位数能提供更全面的情况,特别是当它们差异较大时,这表明可能存在偏态或异常值。
样本年龄
[25, 30, 28, 45, 28]的直方图,显示了计算出的均值、中位数和众数。请注意,单个较高值(45)如何使均值略高于中位数和众数。
了解数据的中心仅是其中一部分。您还需要知道数据点的分散程度。它们是紧密聚集在均值周围,还是广泛分散?离散程度度量(或变异度)回答了这个问题。
范围是最简单的离散度量。它是数据集中最大值和最小值之间的差。
范围=最大值−最小值示例: 对于我们的年龄 [25, 28, 28, 30, 45]:
最大值 = 45
最小值 = 25
范围 = 45 - 25 = 20 岁。
范围能快速了解数据的总跨度,但像均值一样,它对异常值高度敏感。一个非常高或非常低的数值就会显著影响范围。它也无法告诉你数据在极端值之间是如何分布的。
方差衡量每个数据点与均值的平均平方差。它让你了解整体的分散程度。方差越大意味着数据点往往离均值更远;方差越小意味着它们往往离均值更近。
样本方差 (s2) 的公式看起来有些复杂,但思路直接明了:
s2=n−1∑i=1n(xi−xˉ)2我们来分解一下:
示例: 使用年龄 [25, 28, 28, 30, 45] 和均值 xˉ=31.2:
方差是 62.7。这个数字意味着什么?它是“平方年”单位,这不是很直观。这就是标准差的作用。
标准差就是方差的平方根。之所以常用,因为它将离散度量恢复到数据的原始单位。
标准差(s)=方差=s2示例: 对于我们的年龄,方差 s2=62.7。 标准差 s=62.7≈7.92 岁。
标准差为您提供了数据点与均值的典型或平均距离度量。标准差为7.92岁表明,平均而言,员工的年龄与平均年龄31.2相差约7.9岁。
与均值一样,方差和标准差对方差和标准差很敏感,因为它们基于均值,并涉及平方偏差,这会严重影响极端值。
这些汇总统计量(均值、中位数、众数、范围、方差、标准差)是了解数据的基本组成部分。计算它们通常是任何探索性数据分析的第一步,在您进行可视化或更复杂建模之前,它会提供数据集特征的简洁量化描述。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造