所有课程

数据清洗与预处理入门

章节 1: 干净数据的重要性

什么是数据清洗？

什么是数据预处理？

常见数据质量问题来源

数据质量差的影响

数据清洗流程概述

第 1 章测验

章节 2: 识别和处理缺失数据

什么是缺失值？

检测缺失数据的方法

可视化缺失数据模式

策略一：删除行（行删除法）

策略二：删除列

策略三：基础值填充（均值/中位数/众数）

选择策略的考量

处理缺失数据：动手实践

第 2 章测验

章节 3: 处理重复数据

如何定义重复数据？

为何移除重复数据？

识别完全重复行

根据特定列识别重复项

移除重复行

处理重复数据：实践

第 3 章测验

章节 4: 修正数据类型

数据集中的常见数据类型

为什么正确的数据类型很重要

识别不正确的数据类型

转换为数字类型 (整数, 浮点数)

处理数值转换中的错误

转换为日期时间类型

转换为分类或字符串类型

数据类型修正：动手实践

第 4 章测验

章节 5: 数据格式化与标准化

统一格式的重要性

统一文本大小写（大写/小写）

去除前导/尾随空格

简单字符串替换

基本单位转换示例

格式化实操

第 5 章测验

策略三：基础值填充（均值/中位数/众数）

这部分内容有帮助吗？

参考文献

Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber, Jian Pei, 2011 (Morgan Kaufmann) - 一本经典的教科书，提供了数据预处理的全面概述，包括处理缺失数据的各种策略，如均值、中位数和众数填充。
Applied Missing Data Analysis, Craig K. Enders, 2022 (The Guilford Press) - 专门研究缺失数据，提供了对填充方法及其影响的基础解释。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron, 2022 (O'Reilly Media) - 一本面向机器学习工程师的实践指南，包含专门的数据预处理和使用基本填充技术处理缺失值的部分，通常附有Python示例。

© 2026 ApX Machine Learning用心打造