数据收集和准备工作确保了数据集的干净与规整。完成这些步骤后,下一步是什么?在进行复杂的建模或假设检验之前,熟悉数据至关重要。这项初步的检查被称为数据初步分析,简称EDA。可以把它看作是数据集的熟悉阶段。什么是数据初步分析?数据初步分析并非一套严格的步骤,而是一种进行数据分析的方法或理念。由统计学家约翰·图基推广,EDA运用各种方法,通常以图表形式,来:尽可能了解数据集。找出数据内在的结构和规律。提取重要的变量。发现异常值和离群点(可能是在初始清洗时遗漏的)。检验潜在的假设。形成初步的假设或问题,供进一步分析。本质上,EDA是关于在进行更正式的分析之前,运用汇总和可视化方法来弄明白你的数据在说明什么。它旨在提出问题并让数据提供初步的答案。目的:为何从此处开始?从EDA开始非常重要,原因有以下几点:熟悉度: 它帮助你了解数据点的基本特点。你有多少个观测值?包含哪些变量(特征)?它们的类型是什么(数值型、文本型、类别型——回顾第2章的内容)?质量检查: EDA提供了另一个机会来发现潜在问题,如意外值、不一致性或可能影响你结果的剩余缺失数据。模式发现: 你可以开始看到变量间的趋势、分组或关联,这些从原始数据表中可能不明显。假设验证: 许多统计方法依赖于数据的一些假设(例如,它的分布方式)。EDA帮助你检查这些假设是否合理。后续步骤的指导: 从EDA获得的认识为后续的分析选择提供依据。例如,识别出偏态分布可能提示之后进行特定的数据转换。识别出不同的群组可能提示进行聚类分析。EDA思维方式:提出问题EDA的核心是好奇心。像侦探检查现场一样对待你的数据。提出以下问题:这个变量的典型值是什么?这些值的变化程度如何?是否有极端或异常的值?不同的变量之间有何关联?数据的不同子集是否显示出不同的模式?EDA中的常见初步步骤尽管EDA灵活多样,但有些活动几乎总是初步分析过程的一部分:查看基本情况: 检查数据集的维度(行数和列数)、列名以及分配给每列的数据类型。它们合适吗?汇总变量: 计算数值变量的描述性统计量(如平均值或分散程度,我们将在下节介绍),并查看类别变量的频数。可视化分布: 创建简单的图表,如直方图或密度图,以查看单个变量的数据形态。了解关系: 使用散点图或其他可视化方法来了解变量对之间可能如何关联。我们将在以下章节中介绍计算汇总统计量的具体细节,并在第6章中涵盖可视化方法。目前,目的是理解EDA结合这些要素来建立初步的认识。一个比喻:打开工具箱想象一下,有人递给你一个你从未见过的大工具箱。在开始一个具体的维修工作之前,你可能会打开它,看看里面有什么工具(螺丝刀、扳手、钳子?),检查它们的状况,或许按类型分类,然后对你拥有的工具大致有所了解。EDA就像对你的数据工具箱进行初步检查。它帮助你了解你拥有哪些工具(变量)及其特性,然后再尝试构建一些东西或解决某个具体问题。一个迭代过程同样重要的是,要理解EDA通常是迭代的。你可能会计算一个汇总统计量,这会引导你创建一个可视化图表,图表又会显示一个离群值,从而促使你进一步检查,甚至重新审视数据准备步骤。digraph EDA_Cycle { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style=filled]; edge [color="#495057"]; Start [label="启动EDA", shape=ellipse, fillcolor="#a5d8ff"]; Summarize [label="计算汇总"]; Visualize [label="创建可视化图表"]; Question [label="提出问题/形成假设"]; Investigate [label="检查发现"]; Prepare [label="重新审视准备工作?", shape=diamond, fillcolor="#ffec99"]; Formal [label="进入正式分析", shape=ellipse, fillcolor="#b2f2bb"]; Start -> Summarize; Summarize -> Visualize; Visualize -> Question; Question -> Investigate; Investigate -> Prepare; Prepare -> Summarize [label=" 是 "]; Prepare -> Formal [label=" 否 "]; }一个简单的图示,说明了数据初步分析的迭代性。在进入正式分析之前,分析发现常会回到之前的步骤或引发新的问题。从EDA开始确保后续分析有可靠的数据依据。它避免基于错误的假设得出结论,并帮助你获得更有价值的认识。在接下来的章节中,我们将了解EDA中使用的第一批定量工具:汇总统计量。