数据初步分析,常缩写为EDA,是一种分析数据集的方法,旨在概括其主要特点,常采用可视化方式。可以将其看作任何数据驱动项目中的初步调研阶段。在应用复杂算法或得出确定性结论之前,您必须首先熟悉数据的结构、内容、质量和潜在规律。EDA的重点不是证明预设假设,而是培养对数据的直觉,找出数据能说明什么,并提出供后续研究的问题。由有影响力的统计学家约翰·W·图基提出,EDA强调在正式建模之前从多个角度理解数据。它是一种鼓励灵活性、图示分析以及对初始假设持怀疑态度的理念。为何进行EDA?进行EDA是十分重要的一步,原因如下:了解数据属性: 获得关于变量类型(数值型、类别型)、分布和范围的认识。找出数据质量问题: 及早发现缺失值、异常值、重复项、不一致性或测量误差。在进行有意义的分析之前,通常需要解决这些问题。发现规律与关联: 找出变量之间潜在的相关性,识别趋势,并发现数据中的聚类或子组。可视化在此处作用显著。指导特征工程: EDA的分析结果可以提供方法,从现有特征中创建新的、信息量更大的特征,可能在后续提升模型性能。指引建模选择: 理解数据特性(如变量分布或关联)有助于选择合适的统计方法或机器学习算法。例如,高度偏斜的数据可能提示需要在应用某些线性模型前进行变换。形成假设: EDA常带来意料之外的发现,引发新的问题或假设,这些可以在后续使用验证性数据分析 (CDA) 技术进行更正式的检验。传达初步结果: EDA产生的总结和可视化结果提供了一种简明的方式来向利益相关者传达数据要点。EDA 与 验证性数据分析 (CDA) 的比较区分EDA与验证性数据分析 (CDA) 是有用的。EDA侧重于开放式分析和假设形成,而CDA则侧重于假设检验、统计推断以及量化针对预设问题的证据。EDA问的是“数据说明了什么?”,而CDA问的是“特定假设是否得到数据支持?”它们是数据分析过程中互补的阶段。EDA在数据工作流程中的作用EDA通常发生于数据分析或机器学习工作流程的前期,紧随数据收集和初步加载之后。其分析结果直接影响数据清洗、预处理、特征工程和模型选择等后续步骤。digraph G { rankdir=TB; node [shape=box, style="filled,rounded", fontname="sans-serif", color="#495057", fillcolor="#e9ecef"]; edge [color="#495057"]; "数据获取" -> "EDA" [label=" 初步理解"]; "EDA" -> "数据清洗 / 预处理" [label=" 结果指引"]; "数据清洗 / 预处理" -> "特征工程" [label=" 基于认识"]; "特征工程" -> "建模" [label=" 准备好的数据"]; "建模" -> "评估"; "评估" -> "报告 / 部署"; }一个典型的数据分析工作流程,显示了EDA的位置。本质上,EDA是关于与数据建立联系。它涉及提出许多问题,可视化分布和关联,并在进行更正式的分析或建模之前,批判性地检查数据集的特性。这种前期在理解数据上的投入,几乎总能通过防止后续错误、指引更有效的建模策略以及带来更丰富的认识而获得回报。在本课程中,我们将使用Pandas等Python库进行数据操作,以及Matplotlib和Seaborn进行可视化,以执行这些重要的初步分析步骤。