所有课程

数据清洗与预处理入门

章节 1: 干净数据的重要性

什么是数据清洗？

什么是数据预处理？

常见数据质量问题来源

数据质量差的影响

数据清洗流程概述

第 1 章测验

章节 2: 识别和处理缺失数据

什么是缺失值？

检测缺失数据的方法

可视化缺失数据模式

策略一：删除行（行删除法）

策略二：删除列

策略三：基础值填充（均值/中位数/众数）

选择策略的考量

处理缺失数据：动手实践

第 2 章测验

章节 3: 处理重复数据

如何定义重复数据？

为何移除重复数据？

识别完全重复行

根据特定列识别重复项

移除重复行

处理重复数据：实践

第 3 章测验

章节 4: 修正数据类型

数据集中的常见数据类型

为什么正确的数据类型很重要

识别不正确的数据类型

转换为数字类型 (整数, 浮点数)

处理数值转换中的错误

转换为日期时间类型

转换为分类或字符串类型

数据类型修正：动手实践

第 4 章测验

章节 5: 数据格式化与标准化

统一格式的重要性

统一文本大小写（大写/小写）

去除前导/尾随空格

简单字符串替换

基本单位转换示例

格式化实操

第 5 章测验

数据质量差的影响

这部分内容有帮助吗？

参考文献

Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber, Jian Pei, 2011 (Morgan Kaufmann) - 提供数据预处理的基础概述，包括数据质量问题及其对分析的影响。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2019 (O'Reilly Media) - 解释数据准备对机器学习模型的实践重要性，以及数据质量差对模型性能的后果。
The impact of data quality on business processes and decision-making: A case study approach, Marvin Haffke, Maximilian Kaltenbach, Clemens Stöhr, 2022 Procedia Computer Science, Vol. 200 (Elsevier) DOI: 10.1016/j.procs.2022.01.403 - 提供关于数据质量差如何具体影响业务流程和组织决策的最新学术观点。
Data quality problems: What happens when they don't get fixed?, Thomas C. Redman Jr., 2013 MIT Sloan Management Review, Vol. 54 (Massachusetts Institute of Technology) DOI: 10.1177/154165181305400405 - 一篇备受推崇的文章，讨论组织中数据质量问题被忽视时所产生的后果和成本。

© 2025 ApX Machine Learning用心打造