所有课程

数据清洗与预处理入门

章节 1: 干净数据的重要性

什么是数据清洗？

什么是数据预处理？

常见数据质量问题来源

数据质量差的影响

数据清洗流程概述

第 1 章测验

章节 2: 识别和处理缺失数据

什么是缺失值？

检测缺失数据的方法

可视化缺失数据模式

策略一：删除行（行删除法）

策略二：删除列

策略三：基础值填充（均值/中位数/众数）

选择策略的考量

处理缺失数据：动手实践

第 2 章测验

章节 3: 处理重复数据

如何定义重复数据？

为何移除重复数据？

识别完全重复行

根据特定列识别重复项

移除重复行

处理重复数据：实践

第 3 章测验

章节 4: 修正数据类型

数据集中的常见数据类型

为什么正确的数据类型很重要

识别不正确的数据类型

转换为数字类型 (整数, 浮点数)

处理数值转换中的错误

转换为日期时间类型

转换为分类或字符串类型

数据类型修正：动手实践

第 4 章测验

章节 5: 数据格式化与标准化

统一格式的重要性

统一文本大小写（大写/小写）

去除前导/尾随空格

简单字符串替换

基本单位转换示例

格式化实操

第 5 章测验

策略二：删除列

这部分内容有帮助吗？

参考文献

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Jupyter, Wes McKinney, 2022 (O'Reilly Media) - Python数据操作的入门资源，涵盖使用pandas处理缺失数据和重构数据集的实用方法。
Flexible Imputation of Missing Data, Second Edition, Stef van Buuren, 2018 (CRC Press) DOI: 10.1201/9780429492259 - 从统计和方法论角度详细阐述了缺失数据问题，讨论了包括删除在内的各种处理策略的假设和影响。
pandas.DataFrame.drop, pandas development team, 2024 - 用于从DataFrame中删除指定行或列的pandas函数官方文档。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2022 (O'Reilly Media) - 讨论了数据预处理技术，包括缺失值处理，作为为机器学习模型准备数据的基本步骤。

© 2026 ApX Machine Learning用心打造