趋近智
到目前为止,我们的重点是描述和概括我们已有的数据。假设您有一个上个月的客户购买历史数据集。您可以计算平均购买金额,找到最受欢迎的商品,或将消费分布可视化。这是描述性统计的范围。
然而,我们的目标通常要宽泛得多。我们不仅想了解上个月的客户;我们还想理解所有潜在客户或预测未来的购买行为。我们可能想知道所有网站访问者的平均收入,而不仅仅是填写问卷的那些人,或者根据对一小部分产品的测试来判断工厂生产的所有商品的缺陷率。这就是推断统计发挥作用的地方。它提供了方法,可以根据从大群体中一小部分收集的信息,对该大群体进行归纳、估计或预测。
此过程的基础在于理解两个基本思想:总体和样本。
在统计学中,总体不一定指人群。它指的是您感兴趣研究的个体、物品、事件或数据点的全部集合。总体的定义完全取决于您试图回答的问题。
请看这些例子:
总体的主要特点是它代表了感兴趣的完整集合。
在大多数情况下,尤其是在机器学习和数据科学中,由于各种限制,研究整个总体是不切实际或不可能的:
由于这些困难,我们通常使用样本。样本是我们从总体中选择并收集数据的子集。目的是选择一个能代表总体的样本,使我们能够通过检查其中一部分来了解整个群体。
总体包含所有感兴趣的元素,而样本是从总体中选择的更小、更易于处理的子集。
选择这个子集的过程称为抽样。我们如何选择样本非常重要。如果样本不具代表性,我们关于总体的结论可能不准确或有偏。我们将在下一节中研究不同的抽样方法。
当我们谈论总体和样本的特征时,我们使用特定的术语:
推断统计的核心思想是使用样本统计量对总体参数进行合理的推断或估计。例如,我们使用计算出的样本均值 (xˉ) 来估计未知的总体均值 (μ)。我们使用来自调查的样本比例 (p^) 来估计整个总体中的真实比例 (p)。
理解总体(我们感兴趣的整个群体)与样本(我们实际观察的部分)之间的区别,以及参数(总体特征)与统计量(样本特征)之间的区别,非常重要。它为我们如何从观察到的少数部分可靠地对未观察到的大多数部分得出结论奠定了基础,这是本章其余部分讨论的统计推断的核心内容。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造