章节 4: 元数据与编目

到架构的这个阶段，你已经配置了对象存储并建立了数据摄取管道。你的数据位于存储桶中，很可能以 Parquet 或 Avro 格式存在。然而，分布式查询引擎无法在没有特定指令的情况下，对这些原始文件执行 SQL 查询。它需要一个模式定义和一个文件位置目录，才能将分散的对象视为结构化表。

本章说明了元数据与编目层，它充当物理存储和计算引擎之间的连接。你将学习 Hive Metastore 和 AWS Glue Data Catalog 如何维护数据湖的状态。我们将演示这些系统如何将逻辑表（例如 sales_data）映射到 s3://bucket/silver/sales/ 等物理位置。

本课程包含以下技术组成部分：