数据清洗是指识别、纠正或移除数据集中错误、不一致和不准确之处的过程。可以将其视为使原始数据可用的必要第一步。如前所述,数据很少以完美状态出现。它通常包含可能扭曲分析或导致机器学习模型表现不佳的问题。数据清洗的主要目标是提高数据质量,确保您使用的信息准确、一致且可靠。当数据干净时,您可以对获得的数据洞察、生成的报告以及模型做出的预测更有信心。我们正在寻找哪些问题?数据清洗过程中常见的问题包括:缺失值: 数据应存在但为空的单元格或特定占位符(例如 NULL、NA 或 ?)。不正确的数据类型: 数字存储为文本、日期存储为字符串,这会使计算或比较变得困难。错误和拼写错误: 简单的拼写错误(例如将“New York”写成“New Yourk”)、数据录入错误或不可能的值(例如年龄为 -5)。不一致的格式: 大小写差异(“usa”、“USA”、“U.S.A.”)、不同的日期格式(“10/05/2023”与“May 10, 2023”)或条目周围多余的空格。重复记录: 数据集中多次出现的整行或记录,可能导致计数或平均值偏差。清洗过程包括检测这些问题(通常使用编程工具和目视检查),然后决定处理它们的最佳方式。这可能包括:如果可能,直接纠正错误。移除有问题的记录或列。使用适当的策略(填充)来填补缺失值。标准化格式以确保一致性。您可能会听到数据清洗被讨论为一个更大的范畴的一部分,即数据预处理。数据清洗确实是预处理的重要组成部分。预处理包含一套更广泛的任务,旨在为分析或建模准备数据,这些任务涵盖清洗,同时也可以涉及数据转换(例如数值缩放)或特征工程。在这个初始阶段,我们的重点完全放在清洗方面:修正原始数据本身固有的错误和不一致。另外值得注意的是,数据清洗通常是一个迭代过程。您可能会根据初步检查来清洗数据,然后进行一些分析,之后发现需要重新审视清洗步骤的新不一致或问题。让数据真正准备就绪很少是一条完全线性的路径。有效地清洗数据是非常重要的。没有这一步,任何随后的分析或建模都将建立在不稳定的基础上。