在了解数据管道如何传输信息之后,下一步自然是考虑数据存放在何处。有效存储数据对任何数据工程工作都非常重要,因为存储方式的选择会影响数据的可访问性、性能和成本。本章将讨论数据存储的核心原则,这些原则对数据工程师来说非常重要。您将学习不同类型的存储方式以及何时使用它们:关系型数据库: 结构化数据存储的要点以及使用 SQL 进行操作。NoSQL 数据库: 适用于不同数据模型的其他类型数据库概述。文件系统: 大数据场景中常用的分布式文件存储的原理。对象存储: 了解适用于非结构化或半结构化数据的可扩展存储。数据格式: 认识 CSV、JSON 和 Parquet 等常用格式及其用途。本章结束时,您将对主要的数据存储选项有初步认识,并了解针对特定任务选择合适方案时需要考虑的因素。我们还将练习搭建一个基本的数据库表。