趋近智
均值、中位数、众数、方差和标准差等统计量可以告诉我们数据的中心位置和离散程度,但它们无法展现数据的全貌。两个数据集可能拥有相同的均值和标准差,但其形态可能大相径庭。此时,描述形态的统计量,特别是偏度和峰度,就显得很重要。它们分别帮助我们了解数据分布的不对称性和“尾部特征”。
偏度量化 (quantization)了分布偏离完全对称的程度。一个对称的分布,例如经典的钟形曲线(正态分布),其偏度为零。它的左右两边以中心峰值为轴呈镜像对称。
比较对称(蓝色)、正偏态(橙色)和负偏态(紫色)分布。注意长尾相对于主峰的位置。
了解偏度很重要,因为高度偏斜的数据可能违反某些统计检验和机器学习 (machine learning)模型的假设(特别是那些假定数据正态性的模型,如线性回归)。有时,会对偏斜数据进行变换(如对数变换),使其在建模前更趋对称。
峰度衡量分布的“尾部特征”——即数据在尾部相对于中心部分的集中程度。它常与正态分布进行比较,正态分布被认为是中峰态。
标准的衡量方式是超额峰度,计算公式如下: 正态分布的峰度为3,因此其超额峰度为0。
一个常见的误解是峰度只衡量分布的峰值高低。尽管峰值高低常有关联,但峰度的主要决定因素是尾部的“厚度”(权重 (weight))。一个分布可以有高耸的峰值但尾部较薄,也可以有较低的峰值但尾部较厚。峰度具体反映了极端值的影响。
比较不同峰度的分布:尖峰态(红色,厚尾)、中峰态(蓝色,正态尾部)和平峰态(绿色,薄尾)。
高峰度(尖峰态)表明可能存在显著的异常值或肥尾现象,这对风险管理和模型选择很重要。低峰度(平峰态)则可能表示数据比正态分布更集中或更均匀。
偏度和峰度一起,对数据分布提供了更详尽的描述,补充了简单的中心和离散程度信息。计算这些值是探索性数据分析(EDA)中的一个标准步骤,并有助于确定后续的分析选择。像 Pandas 这样的库使得计算这些指标变得简单,我们将在本章后面看到。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•