所有课程

数据清洗与预处理入门

章节 1: 干净数据的重要性

什么是数据清洗？

什么是数据预处理？

常见数据质量问题来源

数据质量差的影响

数据清洗流程概述

第 1 章测验

章节 2: 识别和处理缺失数据

什么是缺失值？

检测缺失数据的方法

可视化缺失数据模式

策略一：删除行（行删除法）

策略二：删除列

策略三：基础值填充（均值/中位数/众数）

选择策略的考量

处理缺失数据：动手实践

第 2 章测验

章节 3: 处理重复数据

如何定义重复数据？

为何移除重复数据？

识别完全重复行

根据特定列识别重复项

移除重复行

处理重复数据：实践

第 3 章测验

章节 4: 修正数据类型

数据集中的常见数据类型

为什么正确的数据类型很重要

识别不正确的数据类型

转换为数字类型 (整数, 浮点数)

处理数值转换中的错误

转换为日期时间类型

转换为分类或字符串类型

数据类型修正：动手实践

第 4 章测验

章节 5: 数据格式化与标准化

统一格式的重要性

统一文本大小写（大写/小写）

去除前导/尾随空格

简单字符串替换

基本单位转换示例

格式化实操

第 5 章测验

策略一：删除行（行删除法）

这部分内容有帮助吗？

参考文献

Statistical Analysis with Missing Data, Roderick J. A. Little and Donald B. Rubin, 2002 (John Wiley & Sons) DOI: 10.1002/9781119013563 - 涵盖缺失数据机制、列表式删除及其影响（特别是关于完全随机缺失MCAR）的权威统计学著作。
pandas.DataFrame.dropna, pandas development team, 2024 (pandas) - 用于执行列表式删除的 Pandas 函数官方文档。
Python for Data Analysis, Wes McKinney, 2022 (O'Reilly Media) - 使用 Python 和 Pandas 进行数据处理的实用指南，包括如何有效地处理缺失数据。
Applied Predictive Modeling, Max Kuhn, Kjell Johnson, 2013 (Springer) DOI: 10.1007/978-1-4614-6849-3 - 涵盖数据预处理的实践方面，包括不同缺失数据处理策略对模型性能的影响。

© 2025 ApX Machine Learning用心打造