在学习了概率的理论基础之后,我们现在转向理解数据集的实际任务。原始数据通常需要初步汇总,以在其进行更复杂的分析或建模之前展现其核心特征。本章介绍描述性统计——一种定量描述数据集主要特点的方法。你将学会计算和解释主要的汇总指标:集中趋势: 使用均值、中位数和众数找出数据的“中心”。离散程度: 使用方差($ \sigma^2 $)、标准差($ \sigma $)和极差量化数据的离散程度或变异性。分布形状: 描述数据分布的不对称性(偏度)和峰度。相对位置: 使用百分位数和四分位数理解数据中的相对位置。关联性: 使用相关系数衡量变量之间的线性关系。我们还将强调相关性与因果关系之间的重要区别,并演示如何使用Python中的Pandas库高效计算这些统计量,同时结合直方图和箱线图等可视化方法。本章结束时,你将能够有效地概括和传达数据集的主要特性。