存储层的架构设计与合适文件格式的选取,构成了数据湖的基本结构。下一步的技术要求是确定将数据从业务系统传输至此存储的机制。此过程不仅仅是简单地复制文件;它需要具备恢复能力的系统,以应对网络中断、不同的数据传输速度以及保持数据状态一致的需求。本章主要说明将数据从来源移动到数据湖所用的工程模式。我们会考察处理大批量历史数据的批处理摄入工作流,并将其与变更数据捕获 (CDC) 方法进行比较。CDC 通过读取事务日志来实现数据库状态的同步,从而在无需进行全表扫描的情况下,实现近乎实时的数据更新。除了传输机制,我们还会说明分布式存储中固有的操作难题。您将学习应对上游数据结构变化时,处理模式演变的方法。本材料也包含“小文件问题”——这是对象存储中常见的性能问题,以及像数据压缩这样的缓解策略。最后,我们会从数据工程的角度说明幂等性,以确保管道在故障恢复期间可以安全地重新执行,而不会产生重复记录。