趋近智
中心极限定理(CLT)是统计学和概率论中的一个基本原则,它连接了样本的描述性统计与关于总体的推断性陈述。使用样本通常是必要的,因为分析整个总体是不切实际的。中心极限定理为样本均值的分布提供了一个有力的结果,即使我们不知道原始总体分布的形状。
想象一个总体,它有特定的均值 μ 和标准差 σ。现在,假设您重复地从这个总体中抽取大小为 n 的独立随机样本,并计算每个样本的均值。中心极限定理告诉我们关于这些样本均值集合的一些值得注意的性质:
中心极限定理非常有用,因为正态分布具有已被很好理解的性质,我们可以运用这些性质进行统计推断。即使我们的原始数据来自偏态、双峰或非正态的分布,从该总体中足够大的样本计算出的均值分布也将近似于正态分布。
这使我们能够:
要求是样本量 n 必须“足够大”。一个常见的经验法则是不小于 30,但这会有所不同。如果原始总体高度偏斜,可能需要更大的样本量才能使近似效果良好。相反,如果原始总体本身就是正态分布的,那么均值的抽样分布对于任何样本量 n 都将精确地是正态的。
均值标准误的公式 σXˉ=nσ 也表明了一个重要的性质:随着样本量 n 的增加,标准误会减小。这意味着从更大的样本计算出的样本均值更接近总体均值,从而得到更精确的估计。
我们用一个模拟来阐明中心极限定理。假设我们有一个遵循指数分布的总体(该分布严重右偏,完全不是正态分布)。我们将从该总体中重复抽取不同大小(n=2,n=10,n=50)的样本,计算每个样本的均值,并绘制这些样本均值的直方图。
模拟结果显示了从指数分布(均值=1)中抽取的1000个样本均值的直方图。请注意,随着样本量 n 从2增加到10再到50,样本均值的分布如何变得更接近钟形(正态)并变窄。这些分布的中心都接近总体均值(1)。(注:实际数据点[...]为简洁起见已省略)。
正如可视化所示,即使从一个高度偏斜的指数分布开始:
中心极限定理支持了机器学习中使用的许多统计方法:
本质上,中心极限定理提供了理论依据,说明了为什么我们在处理样本平均值或总和时,即使底层个体数据点不呈正态分布,也常常可以使用假设正态性的方法。这使其成为推断统计学的根本,使我们能够从样本中有限的数据对总体得出结论。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造