在学习了NumPy的数值计算之后,我们现在开始关注结构化数据的管理和处理,这是任何机器学习项目中的一项基本任务。实际数据很少是干净的或为分析而完美格式化的。本章介绍Pandas库,它是Python中用于数据规整的标准工具。您将了解Pandas的核心数据结构:一维的 Series 和二维的 DataFrame,它们提供了处理表格数据的强大且灵活的方法。我们将介绍以下主要操作:从各种文件格式(例如CSV、Excel和SQL数据库)加载数据。使用索引方法(例如.loc和.iloc)选择数据子集。识别和处理缺失值的方法。清洗、转换和重塑数据集的方法。使用groupby进行分组分析和聚合。通过合并、连接和拼接组合来自多个来源的数据。有效地处理时间序列数据。学习完本章后,您将能够使用Pandas高效地准备各种数据集,以进行分析和机器学习模型构建。