所有课程

数据清洗与预处理入门

章节 1: 干净数据的重要性

什么是数据清洗？

什么是数据预处理？

常见数据质量问题来源

数据质量差的影响

数据清洗流程概述

第 1 章测验

章节 2: 识别和处理缺失数据

什么是缺失值？

检测缺失数据的方法

可视化缺失数据模式

策略一：删除行（行删除法）

策略二：删除列

策略三：基础值填充（均值/中位数/众数）

选择策略的考量

处理缺失数据：动手实践

第 2 章测验

章节 3: 处理重复数据

如何定义重复数据？

为何移除重复数据？

识别完全重复行

根据特定列识别重复项

移除重复行

处理重复数据：实践

第 3 章测验

章节 4: 修正数据类型

数据集中的常见数据类型

为什么正确的数据类型很重要

识别不正确的数据类型

转换为数字类型 (整数, 浮点数)

处理数值转换中的错误

转换为日期时间类型

转换为分类或字符串类型

数据类型修正：动手实践

第 4 章测验

章节 5: 数据格式化与标准化

统一格式的重要性

统一文本大小写（大写/小写）

去除前导/尾随空格

简单字符串替换

基本单位转换示例

格式化实操

第 5 章测验

选择策略的考量

这部分内容有帮助吗？

参考文献

Statistical Analysis with Missing Data, Roderick J. A. Little and Donald B. Rubin, 2019 (John Wiley & Sons) DOI: 10.1002/9781119483622 - 全面论述了处理缺失数据的统计方法，包括对缺失机制（MCAR、MAR、MNAR）的详细讨论。
Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber, Jian Pei, 2011 (Elsevier) - 一本广泛使用的教科书，涵盖数据预处理技术，包括在数据挖掘环境中处理缺失值的方法和考虑因素。
Applied Predictive Modeling, Max Kuhn and Kjell Johnson, 2013 (Springer) DOI: 10.1007/978-1-4614-6849-3 - 提供了在构建和应用预测模型时处理缺失数据的实用策略和考虑因素。

© 2026 ApX Machine Learning用心打造