当我们分析数据,特别是在机器学习中,我们通常对了解一个大群体的模式或特点感兴趣。然而,研究该群体中的每一个成员通常是不切实际或不可能的。这引出了两个基本想法:总体和样本。什么是总体?将总体视为你想要得出结论的个体、事物或事件的全部集合。它是你感兴趣研究的完整集合。总体的例子包括:一个网站的所有注册用户。一家公司一年内收到的所有电子邮件。所有可能存在的猫的图片。某种特定产品的全部生产量。所有被诊断出某种病症的患者。总体可以非常庞大,有时甚至是无限大的(例如“所有可能的硬币翻转”)。它的决定性特征是它包括了符合研究标准的每一个成员。什么是样本?由于时间、成本或可及性等限制,研究整个总体通常是不现实的,我们通常使用样本。样本是总体的一个子集。它是从总体中选出的一个更小、更易于管理的小组。与上述总体相关的例子:从网站注册用户中随机选取的1,000名用户。从公司一年内收到的邮件中选取10,000封邮件,用于构建垃圾邮件过滤器。用于训练图像识别模型的20,000张猫图像数据集。一批用于质量控制测试的50个产品。一项涉及500名患有该病症患者的临床试验。在数据分析和机器学习中,你使用的数据集几乎总是一个样本。digraph G { rankdir=LR; node [shape=box, style="filled,rounded", fontname="sans-serif"]; bgcolor="transparent"; Population [label="总体\n(例如:所有用户)", fillcolor="#a5d8ff", width=2.5, height=1.5]; Sample [label="样本\n(例如:受访用户)", fillcolor="#b2f2bb", width=1.5, height=1]; edge [color="#495057", fontcolor="#495057", fontsize=10]; Population -> Sample [label=" 选取"]; }此图展示了总体(较大的群体)与样本(用于分析的较小、选定的子集)之间的关系。我们为什么要使用样本?实用性: 从整个总体收集数据可能非常耗时且昂贵。想象一下,尝试调查一个国家中的每一个人或测试一家工厂生产的每一个产品。可行性: 有时,获取整个总体的数据根本不可能。总体可能无法完全收集(例如未来的事件),或者接触成员可能会破坏它们(例如,测试灯泡的寿命)。及时性: 快速获得结果通常需要使用样本。分析较小的数据集比分析庞大的总体更快。目标:代表性样本选择样本的首要目的是确保它准确反映其来源总体的特征。这样的样本被称为代表性样本。如果样本具有代表性,我们从分析样本数据中获得的见解可以合理地推广,这意味着我们可以对更大的总体得出结论。获得代表性样本最常见的方法是通过随机抽样,即总体中的每个成员都有被纳入样本的平等机会。这有助于最大程度地减少选择过程中的偏差。尽管有更复杂的抽样方法,但中心思想不变:样本应在相关方面与总体相似。机器学习中的意义区分总体和样本在机器学习中非常重要:作为样本的训练数据: 用于训练机器学习模型的数据是从模型可能遇到的所有可能数据的更大(通常是假设的)总体中抽取的样本。 "* 泛化能力: 机器学习的一个主要目标是泛化。我们希望在样本数据上训练的模型能够在新遇到的、未见过的数据上表现良好。如果训练样本不具代表性,模型可能会学习到样本特有的模式,而这些模式对总体不适用,从而导致在实际应用中表现不佳。"评估: 当我们评估一个模型时(例如,使用测试集),该测试集是另一个样本。我们使用它在该样本上的表现来估计模型对总体的泛化能力。因此,认识到你正在使用样本有助于你批判性地思考数据在多大程度上代表了更广阔的背景,以及你的模型在部署后成功的可能性。我们使用统计方法(我们将在后面介绍)根据现有样本数据对总体进行推断。