您已加载数据,并准备开始分析。了解任何数据集的第一步通常是计算基本的描述性统计量。这些数字概括了数据的主要特征,为您快速概览其中心数值和数值的分散程度。可以把它们看作数据集的指引。我们将着重介绍两种主要的汇总统计量:集中趋势度量和离散程度度量(或变异度)。集中趋势度量:寻找中心集中趋势度量旨在描述数据集中“典型”或“中心”的数值。哪个单一数字最能代表整个群体?最常用的三个度量是均值、中位数和众数。均值(平均值)均值可能是最常用的度量。它就是所有数值的总和除以数值的数量。如果您有一个包含 $n$ 个观测值的数据集,表示为 $x_1, x_2, ..., x_n$,则样本均值(通常表示为 $\bar{x}$)的计算方法是:$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + ... + x_n}{n} $$示例: 假设我们有5名员工的年龄:[25, 30, 28, 45, 28]。 总和是 $25 + 30 + 28 + 45 + 28 = 156$。 数值的数量是 $n = 5$。 平均年龄是 $\bar{x} = 156 / 5 = 31.2$ 岁。均值使用了数据集中的每个数值,这很好,但它也使得它对异常值(非常高或非常低的数值)敏感。那个45岁的人拉高了平均年龄。如果那个值是85而不是45,那么均值会大幅增加,即使大多数员工都年轻得多。中位数($M_e$):中间值中位数是数据按升序排列时的中间数值。它将数据集精确地一分为二:50%的数值低于中位数,50%的数值高于中位数。如何找到中位数:将数据从小到大排序。如果数值数量为奇数($n$ 为奇数),中位数是中间的数值。如果数值数量为偶数($n$ 为偶数),中位数是中间两个数值的平均值。示例(n为奇数): 使用已排序的年龄 [25, 28, 28, 30, 45]。 数值的数量是 $n = 5$(奇数)。 中间数值是第 $(n+1)/2 = (5+1)/2 = 3$ 个数值。 中位数 ($M_e$) 是 28。示例(n为偶数): 我们再添加一个年龄,22:[22, 25, 28, 28, 30, 45]。 数值的数量是 $n = 6$(偶数)。 中间的两个数值分别是第 $n/2 = 6/2 = 3$ 个和第 $(n/2)+1 = 4$ 个数值。它们是 28 和 28。 中位数 ($M_e$) 是这两个数的平均值:$(28 + 28) / 2 = 28$。中位数受异常值的影响远小于均值。如果我们最年长的员工是85岁而不是45岁,排序后的列表将是 [25, 28, 28, 30, 85],中位数仍然是28。这使得中位数在具有偏态分布或极端值的数据集中,成为“典型”数值的更好指标。众数:最常出现的值众数就是数据集中出现频率最高的数值。示例: 在我们原始的年龄数据集 [25, 30, 28, 45, 28] 中,数值 28 出现两次,比其他任何数值都多。 众数是 28。一个数据集可以有:单一众数(单峰): 像我们的示例。多个众数(多峰): 例如,[2, 3, 3, 4, 5, 5, 6] 的众数是 3 和 5。无众数: 如果所有数值出现频率相同(通常只出现一次)。例如,[10, 20, 30, 40]。众数对于分类数据(非数值数据,如“颜色”或“产品类型”)特别有用,在这些情况下,均值和中位数没有意义。对于数值数据,它会告诉您最常见的特定数值。何时使用哪种集中趋势度量?对于没有明显异常值的对称数值数据,使用均值。对于偏态数值数据或有明显异常值的数据,使用中位数。对于分类数据或当识别最常见的数值很重要时,使用众数。通常,同时报告均值和中位数能提供更全面的情况,特别是当它们差异较大时,这表明可能存在偏态或异常值。{"layout": {"title": "样本年龄分布", "xaxis": {"title": "年龄"}, "yaxis": {"title": "计数"}, "bargap": 0.1, "shapes": [{"type": "line", "x0": 31.2, "x1": 31.2, "y0": 0, "y1": 2.2, "line": {"color": "#fa5252", "width": 2, "dash": "dash"}, "name": "均值"}, {"type": "line", "x0": 28, "x1": 28, "y0": 0, "y1": 2.2, "line": {"color": "#1c7ed6", "width": 2, "dash": "dot"}, "name": "中位数/众数"}], "annotations": [{"x": 31.2, "y": 2.3, "text": "均值 (31.2)", "showarrow": false, "font": {"color": "#fa5252"}}, {"x": 28, "y": 2.3, "text": "中位数/众数 (28)", "showarrow": false, "xanchor": "right", "font": {"color": "#1c7ed6"}}], "legend": {"traceorder": "reversed"}}, "data": [{"type": "histogram", "x": [25, 30, 28, 45, 28], "marker": {"color": "#adb5bd"}, "name": "年龄", "nbinsx": 5}]}样本年龄 [25, 30, 28, 45, 28] 的直方图,显示了计算出的均值、中位数和众数。请注意,单个较高值(45)如何使均值略高于中位数和众数。离散程度度量:量化变异性了解数据的中心仅是其中一部分。您还需要知道数据点的分散程度。它们是紧密聚集在均值周围,还是广泛分散?离散程度度量(或变异度)回答了这个问题。范围范围是最简单的离散度量。它是数据集中最大值和最小值之间的差。$$ \text{范围} = \text{最大值} - \text{最小值} $$示例: 对于我们的年龄 [25, 28, 28, 30, 45]: 最大值 = 45 最小值 = 25 范围 = 45 - 25 = 20 岁。范围能快速了解数据的总跨度,但像均值一样,它对异常值高度敏感。一个非常高或非常低的数值就会显著影响范围。它也无法告诉你数据在极端值之间是如何分布的。方差 ($s^2$)方差衡量每个数据点与均值的平均平方差。它让你了解整体的分散程度。方差越大意味着数据点往往离均值更远;方差越小意味着它们往往离均值更近。样本方差 ($s^2$) 的公式看起来有些复杂,但思路直接明了:$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$我们来分解一下:$(x_i - \bar{x})$:找出每个数据点 ($x_i$) 与均值 ($\bar{x}$) 之间的差。这些称为偏差。$(x_i - \bar{x})^2$:平方每个偏差。这会使所有值变为正数(这样负偏差和正偏差就不会相互抵消),并突出较大的偏差。$\sum_{i=1}^{n} (x_i - \bar{x})^2$:将所有平方偏差相加。$/ (n-1)$:除以观测值数量减一 ($n-1$)。我们对样本方差使用 $n-1$,因为它能更好地、无偏地估计真实的总体方差。如果计算整个总体的方差,你会除以 $N$(总体大小)。出于入门目的,我们通常使用样本。示例: 使用年龄 [25, 28, 28, 30, 45] 和均值 $\bar{x} = 31.2$:偏差 $(x_i - \bar{x})$:$25 - 31.2 = -6.2$$28 - 31.2 = -3.2$$28 - 31.2 = -3.2$$30 - 31.2 = -1.2$$45 - 31.2 = 13.8$平方偏差 $(x_i - \bar{x})^2$:$(-6.2)^2 = 38.44$$(-3.2)^2 = 10.24$$(-3.2)^2 = 10.24$$(-1.2)^2 = 1.44$$(13.8)^2 = 190.44$平方偏差之和:$38.44 + 10.24 + 10.24 + 1.44 + 190.44 = 250.8$样本方差 $s^2 = 250.8 / (5 - 1) = 250.8 / 4 = 62.7$方差是 62.7。这个数字意味着什么?它是“平方年”单位,这不是很直观。这就是标准差的作用。标准差 ($s$ 或 $\sigma$)标准差就是方差的平方根。之所以常用,因为它将离散度量恢复到数据的原始单位。$$ \text{标准差} (s) = \sqrt{\text{方差}} = \sqrt{s^2} $$示例: 对于我们的年龄,方差 $s^2 = 62.7$。 标准差 $s = \sqrt{62.7} \approx 7.92$ 岁。标准差为您提供了数据点与均值的典型或平均距离度量。标准差为7.92岁表明,平均而言,员工的年龄与平均年龄31.2相差约7.9岁。低标准差: 数据点紧密聚集在均值周围。高标准差: 数据点分散在更宽的数值范围。与均值一样,方差和标准差对方差和标准差很敏感,因为它们基于均值,并涉及平方偏差,这会严重影响极端值。这些汇总统计量(均值、中位数、众数、范围、方差、标准差)是了解数据的基本组成部分。计算它们通常是任何探索性数据分析的第一步,在您进行可视化或更复杂建模之前,它会提供数据集特征的简洁量化描述。