趋近智
点估算,比如样本均值 xˉ,为我们提供一个单一数值,作为对未知总体参数(如总体均值 μ)的最佳估算。例如,如果我们从人群样本中计算出平均身高为175厘米,那么这就是我们感兴趣的总体中所有人的平均身高的点估算。
但是,这个单一数值有多可靠呢?如果选取不同的样本,我们很可能得到略有不同的样本均值,或许是173厘米或176厘米。点估算无法告知我们这种不确定性,也无法说明估算在不同样本之间可能有多少变动。这时就需要区间估算。
区间估算并非只提供一个数值,它提供一个总体参数的可能值范围。这个范围被称为置信区间。
置信区间是根据样本数据计算出的一个范围,该范围很可能包含未知总体参数的真实值。它由两个数值定义:一个下限和一个上限。例如,我们可能不是简单地说平均身高是175厘米,而是说我们“有95%的把握认为总体的真实平均身高在172厘米到178厘米之间。”
这个区间 [172 厘米, 178 厘米] 就是置信区间。“95%”这部分是置信水平。
置信水平(通常是90%、95%或99%)表示我们对用于生成该区间的方法的信心程度。正确理解这一点很重要:
把它想象成将套环套在一个固定的木桩(真实总体参数)上。置信水平说明你套环方法的成功率。如果你有95%的成功率,这意味着在多次尝试中,你的95%的套环将落在木桩周围。对于任何一次尝试(任何一个计算出的区间),套环要么套中木桩,要么没套中。
真实总体均值(红色虚线)是固定的但未知。每条垂直线表示从不同随机样本计算出的一个95%置信区间。大多数区间(灰色线)包含真实均值,但偶尔(如样本16)会因随机抽样变动而错过它。在95%置信水平下,我们预期约每20个区间中会有1个纯粹因偶然原因而错过真实值。
置信区间的宽度让我们了解估算的精确度。较窄的区间表示更精确的估算,而较宽的区间则表示更多的不确定性。有三个主要因素影响宽度:
置信区间比单独的点估算提供了更丰富的信息。它们为真实参数值提供了一个合理范围,并明确表达了与基于样本的估算相关的不确定性程度。这一认识对于理解统计学中的结果,以及评价基于样本数据训练或测试的机器学习模型的性能指标的稳妥性,都非常重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造