到目前为止,我们的重点是描述和概括我们已有的数据。假设您有一个上个月的客户购买历史数据集。您可以计算平均购买金额,找到最受欢迎的商品,或将消费分布可视化。这是描述性统计的范围。然而,我们的目标通常要宽泛得多。我们不仅想了解上个月的客户;我们还想理解所有潜在客户或预测未来的购买行为。我们可能想知道所有网站访问者的平均收入,而不仅仅是填写问卷的那些人,或者根据对一小部分产品的测试来判断工厂生产的所有商品的缺陷率。这就是推断统计发挥作用的地方。它提供了方法,可以根据从大群体中一小部分收集的信息,对该大群体进行归纳、估计或预测。此过程的基础在于理解两个基本思想:总体和样本。定义总体在统计学中,总体不一定指人群。它指的是您感兴趣研究的个体、物品、事件或数据点的全部集合。总体的定义完全取决于您试图回答的问题。请看这些例子:如果您想知道新广告活动设计的平均点击率 (CTR),总体可能是该广告可能从您的目标受众那里获得所有可能的展示。如果您正在开发一个垃圾邮件检测模型,总体可能是可能到达用户收件箱的所有电子邮件。如果您正在研究推荐引擎的有效性,总体可能是该平台的所有用户。如果您正在监测制造设备的传感器数据,总体可能是传感器在其使用寿命内可能产生的所有可能读数。总体的主要特点是它代表了感兴趣的完整集合。样本的必要性在大多数情况下,尤其是在机器学习和数据科学中,由于各种限制,研究整个总体是不切实际或不可能的:规模: 总体通常非常庞大。测量全球应用程序的每个用户或世界上发送的每封电子邮件都是不可行的。成本: 从整个总体收集数据在时间、金钱和资源方面可能过于昂贵。可访问性: 有时,总体中的某些部分根本无法触及或无法访问。破坏性测试: 在制造或质量控制中,测试一个物品可能会损坏它(例如,测试灯泡的寿命)。您不能在不破坏所有产品的情况下测试整个总体。由于这些困难,我们通常使用样本。样本是我们从总体中选择并收集数据的子集。目的是选择一个能代表总体的样本,使我们能够通过检查其中一部分来了解整个群体。digraph G { bgcolor="transparent"; node [shape=circle, style=filled, fillcolor="#e9ecef", fontname="sans-serif", color="#495057"]; edge [color="#495057"]; subgraph cluster_population { label = "总体\n(所有感兴趣的项)"; bgcolor="#dee2e6"; node [shape=point, color="#868e96"]; p1; p2; p3; p4; p5; p6; p7; p8; p9; p10; p11; p12; p13; p14; p15; p16; p17; p18; p19; p20; p21; p22; p23; p24; p25; p26; p27; p28; p29; p30; subgraph cluster_sample { label = "样本\n(选定子集)"; bgcolor="#ced4da"; node [shape=point, color="#1c7ed6", style=filled]; s1 [pos="1,1!"]; s2 [pos="1.5,0.5!"]; s3 [pos="0.5,0.5!"]; s4 [pos="1,0!"]; s5 [pos="1.8,1.2!"]; // Position sample points within population area p5 -> s1 [style=invis]; // Use invisible edges for rough positioning if needed p10 -> s2 [style=invis]; p15 -> s3 [style=invis]; p20 -> s4 [style=invis]; p25 -> s5 [style=invis]; } // Prevent nodes from overlapping clusters directly p1 [pos="0,2!"]; p2 [pos="1,2!"]; p3 [pos="2,2!"]; p4 [pos="3,2!"]; p6 [pos="0,1.5!"]; p7 [pos="2.5,1.5!"]; p8 [pos="3,1.5!"]; p9 [pos="0,1!"]; p12 [pos="3,1!"]; p13 [pos="0,0.5!"]; p16 [pos="3,0.5!"]; p17 [pos="0,0!"]; p18 [pos="0.5,-0.2!"]; p19 [pos="1.5,-0.2!"]; p21 [pos="2.5,-0.2!"]; p22 [pos="3,0!"]; p23 [pos="0,-0.5!"]; p24 [pos="1,-0.5!"]; p26 [pos="2,-0.5!"]; p27 [pos="3,-0.5!"]; p28 [pos="0.5,-1!"]; p29 [pos="1.5,-1!"]; p30 [pos="2.5,-1!"]; } }总体包含所有感兴趣的元素,而样本是从总体中选择的更小、更易于处理的子集。选择这个子集的过程称为抽样。我们如何选择样本非常重要。如果样本不具代表性,我们关于总体的结论可能不准确或有偏。我们将在下一节中研究不同的抽样方法。参数与统计量当我们谈论总体和样本的特征时,我们使用特定的术语:参数是一个数值,它描述了总体的特征。参数通常是未知的(因为我们无法测量整个总体),并且通常用希腊字母表示。总体均值:$\mu$总体标准差:$\sigma$总体方差:$\sigma^2$总体比例:$p$ (有时为 $\pi$)统计量是一个数值,它描述了样本的特征。我们直接从样本数据中计算统计量,它们通常用罗马字母或带有帽子符号 (^) 的表示法表示。样本均值:$\bar{x}$ (读作“x-bar”)样本标准差:$s$样本方差:$s^2$样本比例:$\hat{p}$ (读作“p-hat”)推断统计的核心思想是使用样本统计量对总体参数进行合理的推断或估计。例如,我们使用计算出的样本均值 ($\bar{x}$) 来估计未知的总体均值 ($\mu$)。我们使用来自调查的样本比例 ($\hat{p}$) 来估计整个总体中的真实比例 ($p$)。理解总体(我们感兴趣的整个群体)与样本(我们实际观察的部分)之间的区别,以及参数(总体特征)与统计量(样本特征)之间的区别,非常重要。它为我们如何从观察到的少数部分可靠地对未观察到的大多数部分得出结论奠定了基础,这是本章其余部分讨论的统计推断的核心内容。