趋近智
数据收集和准备工作确保了数据集的干净与规整。完成这些步骤后,下一步是什么?在进行复杂的建模或假设检验之前,熟悉数据至关重要。这项初步的检查被称为数据初步分析,简称EDA。可以把它看作是数据集的熟悉阶段。
数据初步分析并非一套严格的步骤,而是一种进行数据分析的方法或理念。由统计学家约翰·图基推广,EDA运用各种方法,通常以图表形式,来:
本质上,EDA是关于在进行更正式的分析之前,运用汇总和可视化方法来弄明白你的数据在说明什么。它旨在提出问题并让数据提供初步的答案。
从EDA开始非常重要,原因有以下几点:
EDA的核心是好奇心。像侦探检查现场一样对待你的数据。提出以下问题:
尽管EDA灵活多样,但有些活动几乎总是初步分析过程的一部分:
我们将在以下章节中介绍计算汇总统计量的具体细节,并在第6章中涵盖可视化方法。目前,目的是理解EDA结合这些要素来建立初步的认识。
想象一下,有人递给你一个你从未见过的大工具箱。在开始一个具体的维修工作之前,你可能会打开它,看看里面有什么工具(螺丝刀、扳手、钳子?),检查它们的状况,或许按类型分类,然后对你拥有的工具大致有所了解。EDA就像对你的数据工具箱进行初步检查。它帮助你了解你拥有哪些工具(变量)及其特性,然后再尝试构建一些东西或解决某个具体问题。
同样重要的是,要理解EDA通常是迭代的。你可能会计算一个汇总统计量,这会引导你创建一个可视化图表,图表又会显示一个离群值,从而促使你进一步检查,甚至重新审视数据准备步骤。
一个简单的图示,说明了数据初步分析的迭代性。在进入正式分析之前,分析发现常会回到之前的步骤或引发新的问题。
从EDA开始确保后续分析有可靠的数据依据。它避免基于错误的假设得出结论,并帮助你获得更有价值的认识。在接下来的章节中,我们将了解EDA中使用的第一批定量工具:汇总统计量。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造