完全抽取与增量抽取

您已成功连接到数据源。下一个重要问题是：每次抽取运行时应该提取多少数据？是每次都提取所有数据，还是只提取新增或变更的部分？这一选择带来了两种基本的抽取策略：完全抽取和增量抽取。

了解全量提取和增量提取之间的区别以及何时使用每种方法，是构建高效且易于管理的 ETL 管道不可或缺的。

完全抽取：全部获取

完全抽取顾名思义：每次 ETL 过程运行时，它都会从源系统中抽取全部数据集。就像每次需要检查更新时都影印整本书一样，即使只有几个字发生了改变。

工作原理： 该过程只是连接到源，并提取您感兴趣的表或文件的所有可用记录。如果目标系统已包含上次运行的数据，则完全抽取通常涉及在载入新抽取的完整数据集之前，删除（截断）旧数据。

何时使用完全抽取：

完全抽取的缺点：

增量抽取采用更精细的方法。它不是提取所有数据，而是只识别和提取自上次抽取运行以来已添加或修改的数据。回到图书的比喻，这就像只影印上次复制后有改动过的页面。

工作原理： 此方法依赖于能够检测源数据中的变更。常见技术包括：

时间戳： 许多数据库表都有记录行最后修改时间的列（例如，last_updated_at、modification_date）。ETL 过程会记录上次成功抽取的时间戳，在下一次运行时，只抽取时间戳晚于所记录时间戳的行。
版本号或序列 ID： 有些系统会给事务或记录分配递增的数字或唯一 ID。您可以追踪上次处理的 ID，并只获取 ID 更高的记录。
状态标志： 有时，记录带有状态标志（例如，is_processed、needs_sync），表明它们是否需要被抽取。ETL 过程会抽取带有特定标志的记录，并在成功抽取后可能更新该标志。
变更数据捕获 (CDC)： 这是一组更先进的技术，源数据库本身会在变更发生时记录这些变更（插入、更新、删除）。专门的 CDC 工具或数据库功能随后可以读取这些日志以高效捕获变更，通常延迟非常低。我们将在本章后面提及 CDC 的一些内容。

何时使用增量抽取：

增量抽取的缺点：

这是一个描述主要区别的简单图示：

该图对比了每次提取所有数据、导致目标数据被替换的完全抽取，与只提取新增或变更数据、允许在目标中进行追加或更新的增量抽取。

选择正确的策略：

完全抽取和增量抽取之间的决定并非总是明确的，通常取决于：

在许多情况下，您可能会组合使用：执行初始完全抽取来填充目标系统，然后切换到增量抽取进行持续更新。了解这两种方法使您能够选择最适合 ETL 管道中每个特定数据源的技术。

参考文献

The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Ralph Kimball, Margy Ross, 2013 (John Wiley & Sons, Inc.) - 涵盖数据仓库的基本概念，包括ETL背景下的数据提取策略、全量加载和增量更新。
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 讨论数据系统的基本原则，包括数据集成、复制以及管理变更的挑战，这些都是理解提取策略的核心。
Data Pipelines Pocket Reference: Moving and Processing Data for Your Organization, James Densmore, 2021 (O'Reilly Media) - 为构建和管理数据管道提供了实用指导，包括各种数据提取技术和高效数据传输的注意事项。
Change Data Capture (SQL Server), Microsoft Learn, 2025 (Microsoft) - 详细技术说明了SQL Server中变更数据捕获（CDC）的实现，展示了增量数据提取的实用方法。