上一章我们已奠定了ETL的基本原理,现在将侧重于第一阶段:提取。这是该流程的起点,从原始系统获取原始数据。本章介绍数据导出的实用内容。你将学习以下内容:连接各种数据源,例如数据库、文件和API。数据获取的不同方法,包括全量提取与增量提取。处理结构化数据(例如表格)和半结构化数据(例如JSON或XML)的技术。介绍变更数据捕获(CDC),以高效追踪数据修改。提取过程中遇到的常见挑战和基本的错误处理。在本章结束时,你将了解成功提取数据所需的方法和考量,这是构建ETL管道的第一步。