在从源头提取数据后,下一步工作是将其准备好,以便用于目标系统和预期的目的。原始数据经常不一致、不完整,或者其结构不适合在目标系统中进行分析或存储。这个中间步骤,即数据转换,旨在处理这些问题。本章专注于ETL框架中的“转换”阶段。您将学习用于处理原始数据的常见操作。我们将介绍数据清洗技术,包括处理缺失值和纠正不准确数据。您还将学习如何应用验证规则、标准化格式、通过添加计算字段或查找字段来丰富数据、通过连接或拆分等操作来组织数据,以及数据聚合的基本方法。目标是将提取的数据重塑为可用且一致的格式,以备后续的加载阶段使用。