数据很少保持不变,也不会正好生成在需要的地方。数据工程的一项核心工作是构建通路,用于移动、处理和优化数据,以供分析或应用程序使用。这些通路被称为数据管道。本章将介绍数据管道的基本结构和运作方式。我们将学习两种常见的架构模式:抽取、转换、加载(ETL)和抽取、加载、转换(ELT)。您将了解这些模式中不同的阶段,包括:从各种来源抽取数据的方法。用于数据转换的基本操作,例如清洗和格式化。将数据加载到目标存储系统的技巧。调度和管理管道执行(编排)的简单方法。最后,您将基于给定的场景,通过草拟一个基本的数据管道来应用这些想法。