趋近智
概率分布常呈现出几种特定形态,例如用于计数成功的二项分布或用于模拟许多自然现象的正态分布。中心极限定理(CLT)是一个非常重要的思想,它连接了不同的分布。它是统计学中最主要的结果之一,其影响在数据分析中频繁出现,尤其是在机器学习 (machine learning)场景中。
设想你拥有任意一个总体分布。它可能是偏斜的、均匀的、双峰的,或者完全不规则的。中心极限定理不直接关注这个原始分布。相反,它告诉我们关于样本均值分布的一些有趣信息。
这是其主要思路:
中心极限定理指出,只要样本大小 足够大,这些样本均值的分布将近似于正态(高斯)分布,无论原始总体分布的形状如何。
这相当令人惊讶!即使你从一个与钟形曲线完全不同的总体开始,从该总体样本计算出的均值分布也将趋向于熟悉的钟形。
为了使中心极限定理合理地成立,通常需要几个条件:
样本均值的分布(通常称为均值的抽样分布)将具有特定属性:
请注意标准误差分母中的 。这告诉我们,随着样本大小 的增加,样本均值的离散程度会减小。换句话说,从较大样本计算出的均值倾向于更紧密地聚集在真实总体均值周围。
让我们将其可视化。假设我们的总体遵循均匀分布(平坦的,非钟形)。我们抽取许多样本(例如,大小 ,然后 ,然后 ),并绘制其均值的分布。
显示了从均匀总体中针对不同样本大小 () 计算出的样本均值分布。随着 的增加,均值分布变得更集中,并越来越接近正态分布,即使原始总体是均匀的。
中心极限定理非常有用,因为它允许我们在不知道总体潜在分布的情况下,使用正态分布的属性进行统计推断(根据样本数据对总体得出结论)。
总而言之,中心极限定理提供了一个强大的理论联系:从几乎任何分布中抽取足够大的随机样本,计算它们的均值,这些均值的分布将近似于广为人知的正态分布。这使我们能够对未知的总体参数 (parameter)进行统计推断,这是数据分析和评估机器学习模型所必需的过程。我们将在下一章讨论统计推断时重新审视这些思想。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造