实际数据在有效分析前,通常需要进行清理和重塑。在学习了如何使用 Pandas Series 和 DataFrame 创建、加载和选择数据之后,我们现在转向数据处理这项重要工作。原始数据集经常包含缺失值、无关信息或不方便处理的列名。本章介绍在 Pandas DataFrames 中整理数据的基本方法。您将学习如何:识别缺失数据点(通常表示为 $NaN$)。应用处理这些缺失值的方法,可以通过删除或用合适的值填充。添加新列,这些列通常基于现有列的计算生成。移除不需要的行或列。重命名列,以提高清晰度或保持一致性。根据索引或特定列的值对 DataFrame 进行排序,以便更好地整理信息。掌握这些操作为您后续的数据分析或建模工作打下了扎实功底。