趋近智
到架构的这个阶段,你已经配置了对象存储并建立了数据摄取管道。你的数据位于存储桶中,很可能以 Parquet 或 Avro 格式存在。然而,分布式查询引擎无法在没有特定指令的情况下,对这些原始文件执行 SQL 查询。它需要一个模式定义和一个文件位置目录,才能将分散的对象视为结构化表。
本章说明了元数据与编目层,它充当物理存储和计算引擎之间的连接。你将学习 Hive Metastore 和 AWS Glue Data Catalog 如何维护数据湖的状态。我们将演示这些系统如何将逻辑表(例如 sales_data)映射到 s3://bucket/silver/sales/ 等物理位置。
本课程包含以下技术组成部分:
你将通过设置数据编目并配置爬虫从现有数据集生成表定义,在实践练习中运用这些原理。
4.1 元数据存储库的作用
4.2 分区识别
4.3 技术治理
4.4 数据血缘实现
4.5 实操:配置数据目录
© 2026 ApX Machine Learning用心打造