趋近智
当我们分析数据,特别是在机器学习中,我们通常对了解一个大群体的模式或特点感兴趣。然而,研究该群体中的每一个成员通常是不切实际或不可能的。这引出了两个基本想法:总体和样本。
将总体视为你想要得出结论的个体、事物或事件的全部集合。它是你感兴趣研究的完整集合。
总体的例子包括:
总体可以非常庞大,有时甚至是无限大的(例如“所有可能的硬币翻转”)。它的决定性特征是它包括了符合研究标准的每一个成员。
由于时间、成本或可及性等限制,研究整个总体通常是不现实的,我们通常使用样本。样本是总体的一个子集。它是从总体中选出的一个更小、更易于管理的小组。
与上述总体相关的例子:
在数据分析和机器学习中,你使用的数据集几乎总是一个样本。
此图展示了总体(较大的群体)与样本(用于分析的较小、选定的子集)之间的关系。
选择样本的首要目的是确保它准确反映其来源总体的特征。这样的样本被称为代表性样本。如果样本具有代表性,我们从分析样本数据中获得的见解可以合理地推广,这意味着我们可以对更大的总体得出结论。
获得代表性样本最常见的方法是通过随机抽样,即总体中的每个成员都有被纳入样本的平等机会。这有助于最大程度地减少选择过程中的偏差。尽管有更复杂的抽样方法,但中心思想不变:样本应在相关方面与总体相似。
区分总体和样本在机器学习中非常重要:
因此,认识到你正在使用样本有助于你批判性地思考数据在多大程度上代表了更广阔的背景,以及你的模型在部署后成功的可能性。我们使用统计方法(我们将在后面介绍)根据现有样本数据对总体进行推断。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造