趋近智
数据管道中有一种常见模式:提取、加载、转换 (ELT)。顾名思义,ELT改变了操作顺序。它不是在数据传输过程中进行转换,而是首先将原始或经过少量处理的数据直接加载到目标系统,然后 在该 目标系统内执行转换。
这种方法随着强大、可扩展的云数据仓库和数据湖的兴起而变得更受欢迎。这些系统通常拥有强大的计算能力,能高效地处理大规模转换。
下面我们来分解ELT流程:
此步骤与ETL中的“提取”阶段相同。数据从其原始来源获取。这些来源多种多样,包括:
这里的目的就是将数据从源系统取出。
这与ETL的主要不同点。在ELT模式中,提取的数据几乎立即加载到目标存储系统,通常是数据湖或数据仓库。可能会进行少量清理或结构化,但主要的转换工作被推迟。
例如,来自API的原始JSON数据可以直接加载到数据仓库内的暂存表或区域,或者作为文件放入数据湖。在这个阶段,数据结构不一定严格强制执行。这使得数据摄入更快,因为管道无需等待可能耗时的转换。
只有当数据存在于目标系统(数据仓库或数据湖)中之后,转换步骤才会发生。数据工程师或分析师随后可以运用目标系统本身的加工能力,对数据进行清洗、丰富、聚合、连接和重塑,使其成为分析或应用程序所需的格式。
通常,此转换步骤是在数据仓库中使用SQL执行,或者使用像Apache Spark这样的处理框架,这些框架可以直接在数据湖或数据仓库中的数据上运行。
该图表展示了ELT管道中的操作顺序:从来源提取数据,将其加载到目标系统,然后在该系统内进行转换。
ELT方法有诸多优点,尤其是在现代数据环境中:
根本区别在于转换发生的时间。
处理大量数据、使用强大的云数据平台以及需要转换灵活时,ELT通常是更优选的方法。您先加载原始材料,然后在您的“厨房”(数据仓库或数据湖)中决定配方。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造