趋近智
数据很少以原始、即用状态呈现。就像食材在烹饪前需要准备一样,数据在分析前也需要清洗。理解数据变得混乱的原因是学习如何解决问题的第一步。缺陷可能在各个阶段悄悄出现,从初始收集到存储和处理。我们来看看这些数据质量问题的一些常见源头。
人类在许多情况下参与数据的收集和输入,而人会犯错。这些通常是脏数据最常见和多样的来源:
New York 写成 New Yrok),或数字中颠倒的数字(例如将 123 写成 132)。01/15/2023、15-Jan-2023、2023/01/15),使用不同单位但未注明(英里 vs. 公里),或大小写不一致(california、California、CA)。USA、U.S.A.、United States,或 Female、F、Woman。NULL 或 NaN),而是输入 N/A、Missing、?、999,甚至是空格等占位符。从系统角度看,这些并非真正缺失,但它们表示需要特别处理的缺失信息。组织经常将来自多个来源(例如不同的数据库、部门或外部合作伙伴)的数据结合起来。这种集成过程会带来一些问题:
CustomerID 与 CustID)、数据类型(数字与字符串)或结构来存储相似的信息。合并它们需要仔细的映射和转换。自动化系统也可能产生数据问题:
\u00e2\u20ac\u0153 而不是引号)。"信息会随着时间推移而过时。这对于涉及人员、组织或状态的数据尤为重要:"
如果在数据收集开始之前没有建立明确的指导方针,那么不一致几乎是必然的:
1、M、Male;州使用 CA、Calif.、California)。识别这些潜在来源有助于您预判在新数据集中可能遇到的问题类型。这种认知指导您初步查看数据,并告知您需要应用哪些具体的清洗技术,我们将在后续章节中讲解这些技术。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造