我们来思考一下我们目前的位置。在前面的章节中,我们学习了如何获取数据集,并使用均值、中位数、方差等工具以及直方图等可视化方法来概括其主要特性。我们将此称为描述性统计。我们也研究了概率的规则,这有助于我们理解随机性和不确定性。现在,我们经常面临这样的情况:我们拥有的数据只是一个更大整体中的一小部分。想象一下,您想了解一个国家所有互联网用户的典型下载速度。您可能无法测试每一个连接;那将是不切实际或不可能的。相反,您可能会测试几百或几千名用户的速度。您实际测量的这个较小群体被称为样本,而您感兴趣的整个群体(该国所有互联网用户)被称为总体。核心问题是:我们如何利用样本中的信息(例如,我们测试过的用户的平均下载速度)来对整个总体(例如,该国所有人的平均下载速度)得出有意义的陈述?这是统计推断的主要任务。统计推断提供了基于从样本收集的数据,对总体进行概括、预测或决策的方法。它关乎从简单地描述我们特定的数据点,到得出更普遍的结论。从样本线索到总体真实情况考虑您感兴趣的总体特征,例如真实的平均下载速度或实际的用户满意比例。这个总体真实的、通常未知的值被称为参数。例如,全国真实的平均下载速度就是一个总体参数。我们通常使用希腊字母来表示参数,例如总体均值用 $\mu$ (mu) 表示,总体比例用 $p$ 表示。由于我们通常无法测量整个总体,因此我们会从样本中计算一个对应值。这个从样本数据计算出来的值被称为统计量。例如,从我们受测用户样本中计算出的平均下载速度就是一个样本统计量。我们通常使用普通字母,例如样本均值用 $\bar{x}$ (x-bar) 表示,样本比例用 $\hat{p}$ (p-hat) 表示。推断的核心思想是使用统计量(来自我们的样本)的已知值,对对应参数(在总体中)的未知值进行基于信息的推测。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif"]; edge [fontname="sans-serif"]; subgraph cluster_pop { label = "总体\n(例如,所有互联网用户)"; style=dashed; bgcolor="#e9ecef"; // Light gray P [label="真实的平均下载速度 (参数 µ)\n(未知)", shape=ellipse, style=filled, fillcolor="#ced4da"]; // Gray } subgraph cluster_sample { label = "样本\n(例如,500名受测用户)"; style=dashed; bgcolor="#a5d8ff"; // Light blue S [label="样本平均下载速度 (统计量 x̄)\n(已计算)", shape=ellipse, style=filled, fillcolor="#74c0fc"]; // Blue } S -> P [label="统计推断\n(使用 x̄ 估计 µ)"]; }此图显示了总体与样本之间的关系。我们从样本计算统计量,以推断总体中未知的参数。处理不确定性统计推断的一个重要方面是承认并处理不确定性。如果您从同一个国家抽取不同的500名用户样本,您可能会得到一个略有不同的样本平均下载速度 ($\bar{x}$)。这种样本间的变动被称为抽样变异性。因为我们的样本统计量 ($\bar{x}$) 取决于我们偶然抽取的具体样本而变动,所以它不太可能完全等于真实的总体参数 ($\mu$)。因此,推断的一个重要部分不仅仅是进行推测,还要量化该推测的不确定性程度。我们想知道我们的样本统计量与总体参数有多接近。与机器学习的关联这些原理是机器学习的根基。当您训练模型时,通常会使用一个训练数据集(一个样本)。然后,您会在一个单独的测试数据集(另一个样本)上评估其表现。您在测试集上计算的性能指标(例如,准确率、错误率)是一个统计量。然而,您的真正目标是了解模型未来在新的、未见过的数据(总体)上的表现如何。统计推断有助于回答以下问题:在测试集上测得的准确率是未来表现的可靠估计吗?如果模型 A 在测试集上的准确率略高于模型 B,这种差异是真实的吗,还是仅仅由于数据点进入测试集的随机偶然性(抽样变异性)造成的?在接下来的章节中,我们将介绍统计推断的主要工具:点估计:计算一个单一值统计量(如 $\bar{x}$)作为我们对总体参数 ($\mu$) 的最佳推测。置信区间:提供一个可能包含真实总体参数的值范围,让我们了解不确定性。假设检验:建立一个正式的框架,用于基于样本证据对关于总体的主张作出决定。理解推断使我们能够从数据中得出更可靠的结论,这对于构建和评估有效的机器学习模型非常必要。