数据验证规则

仅仅因为你成功提取了数据，并不意味着它就可供使用。从各种来源获取的原始数据，常常就像一个杂乱的房间——可能有缺失、错位或干脆是错误的。在将这些数据载入其最终目的地（例如一个干净、规整的数据仓库）之前，我们需要确保它符合特定的质量标准。这就是数据验证规则的作用所在。它们在ETL过程中扮演着质量控制检查员的角色。

可以将数据验证规则看作是一系列特定的检查或条件，数据必须通过这些检查或条件才能被认为是可接受的。在转换阶段应用这些规则有助于及早发现和处理有问题的数据，防止下游出现“垃圾进，垃圾出”的情况。可靠的分析和决策很大程度上取决于基础数据的质量和完整性。

什么是数据验证规则？

数据验证规则是预定义的标准，用于检查数据的准确性、完整性、格式和一致性。它们的功能类似于断言：“这个数据点必须是这个样子”或“这个值必须在这个范围内”。如果数据未能通过某个规则，则表示存在潜在的质量问题，需要加以处理。

常见的验证规则类型

虽然具体规则很大程度上取决于数据及其预期用途，但在ETL管道中经常应用以下几种常见的验证类型：

类型检查： 这是最基本的验证。它确保特定字段中的数据符合预期的数据类型。例如，Age（年龄）列应包含数字（整数），而不是“twenty-five”这样的文本。TransactionDate（交易日期）列应包含有效日期，而不是任意字符串。
- 规则示例： product_price（产品价格）字段必须是数值（十进制）类型。
范围检查： 这些规则验证数值或日期值是否落在预定义的允许范围内。这有助于捕获不可能或极不可能的值。
- 规则示例： birth_date（出生日期）字段必须在今天日期之前，且在一个合理的、最早的日期之后（例如，'1900-01-01'）。
- 规则示例： order_quantity（订单数量）必须大于0，且可能小于最大限制（例如，1000）。
格式检查： 数据通常需要符合特定的模式或格式，特别是对于标识符、代码或联系信息。正则表达式常用于定义这些模式。
- 规则示例： email_address（电子邮件地址）字段必须匹配标准电子邮件模式（例如，[email protected]）。
- 规则示例： postal_code（邮政编码）字段必须匹配该国家预期的格式（例如，美国邮政编码为5位数字，如NNNNN）。
集合成员检查（查找/枚举）： 这些规则确保字段的值属于预定义的允许值列表（枚举或“enum”）。这常见于状态码、类别或国家代码。
- 规则示例： order_status（订单状态）字段必须是以下之一：“Pending”（待处理）、“Processing”（处理中）、“Shipped”（已发货）、“Delivered”（已送达）、“Cancelled”（已取消）。
- 规则示例： country_code（国家代码）字段必须存在于有效的ISO国家代码参考列表中。
唯一性检查： 此验证确保特定列或列组合中的值在所有记录中是唯一的。这对于主键或标识符来说是必要的。
- 规则示例： 每个 customer_id（客户ID）在客户数据集中必须是唯一的。
- 规则示例： order_id（订单ID）和 product_id（产品ID）的组合在订单项数据集中必须是唯一的。
完整性检查（非空/必填字段）： 某些字段是必要且不能为空或空值的。此规则检查必填字段中是否存在值。
- 规则示例： user_id（用户ID）字段不能为空。
- 规则示例： billing_address（账单地址）和 shipping_address（收货地址）都必须提供，订单才有效。
一致性检查： 这些规则检查同一记录内或相关记录间不同数据点之间的逻辑关系。
- 规则示例： ship_date（发货日期）必须在 order_date（订单日期）或之后。
- 规则示例： 如果 payment_status（支付状态）是“Paid”（已支付），那么 payment_date（支付日期）不能为空。

实现验证规则

实际操作中，这些规则是在转换逻辑中实现的。许多ETL工具都提供专门的组件或阶段来定义和应用验证规则，通常通过图形界面完成。另外，如果你正在编写ETL过程脚本（例如，使用Python），你通常会使用条件语句（if/else 逻辑）、正则表达式和对照参考数据进行查找来实现这些规则。

处理验证失败

当一条记录未能通过一个或多个验证规则时会发生什么？简单地停止整个ETL过程通常是不理想的。相反，常见的处理策略包括：

拒绝记录： 包含无效数据的整条记录被丢弃，不再向下游管道传递。这种方法简单，但会导致数据丢失。
隔离记录： 无效记录被移动到单独的位置（文件或特定表），通常称为“错误表”或“隔离区”。这允许后续检查、手动修正和可能的重新处理。
记录错误： 关于失败的信息（哪条记录、哪个字段、哪个规则失败、无效值）被写入日志文件或监控系统。记录可能仍然继续处理，无效字段可能被设为null或默认值，或者它可能在记录日志的同时被拒绝/隔离。
尝试修正： 对于某些类型的错误（例如，大小写不一致、次要格式问题），转换逻辑可能会尝试自动修正数据。这应该谨慎操作，以避免引入新的错误。

所选策略通常取决于错误的严重程度、数据字段的重要性以及目标系统的要求。一种常见的方法是隔离无效记录并记录错误以供审查。

流程图显示了数据如何根据验证规则进行检查，从而决定数据是被载入还是被隔离/记录。

应用数据验证规则是构建可信数据管道的不可或缺的步骤。通过系统地根据定义好的标准检查数据，你可以及早捕获错误，提高数据质量，并确保载入目标系统的数据准确、一致，且可用于分析或应用。对验证的这项投入会带来显著回报，因为它能提高对数据的信心以及从中获得的洞察力。

参考文献

The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Ralph Kimball and Margy Ross, 2013 (Wiley) - 本书提供了数据仓库设计的实践指导，其中包含详细介绍ETL流程、数据质量和填充数据仓库验证步骤的章节。
Data Quality: The Field Guide, Thomas C. Redman, 2001 (Elsevier Science & Technology) - 这是一部经典资源，全面介绍了数据质量概念、衡量和改进，直接支持数据验证背后的原则。
DAMA-DMBOK2: Data Management Body of Knowledge, DAMA International, 2017 (Technics Publications) - 这份权威指南涵盖了数据管理的所有方面，包括数据质量管理，为理解数据验证规则的作用和重要性提供了更广阔的背景。