趋近智
数据,以其原始形式,是数据工程师工作的基本材料。正如建筑师需要了解木材、砖块和钢材的特性一样,数据工程师也必须了解数据呈现的不同形式。数据并非都一样;它在组织方式和格式上差异很大。识别这些差异是有效收集、存储和处理数据的第一步。接下来,我们看看数据通常归属的主要类别。
将结构化数据想象成可以整齐地放入预设容器的信息,就像将物品整理到贴有标签的箱子里。它遵循固定的模式,这意味着它具有特定且预期的格式,通常组织成行和列。这种组织方式使其易于使用标准工具进行查询和分析。
由于其可预测的结构,系统可以高效存储、检索和处理结构化数据。大多数传统数据分析严重依赖此类型数据。
非结构化数据则相反;它缺乏预定义的数据模型或组织架构。它就像一个巨大的图书馆,里面堆满了书籍、文章、音频和视频,但都没有以统一方式编目。尽管它包含海量信息,但提取特定信息需要更高级的方法。
分析非结构化数据通常涉及自然语言处理(NLP)技术(针对文本)或计算机视觉技术(针对图像),以首先施加一些结构或提取有意义的特征,然后才能进行分析。尽管存在挑战,它是一种增长迅速的数据类型,包含有价值的信息。
半结构化数据介于结构化数据的高度组织化结构和非结构化数据的自由形式特性之间。它不符合关系型数据库中表的严格结构,但包含标签、标记或其他组织形式,使其元素可识别且呈层级结构。
{"name": "Alice", "email": "[email protected]", "orders": [{"order_id": 123, "amount": 50}, {"order_id": 456, "amount": 75}]}<customer><name>Bob</name><email>[email protected]</email></customer>半结构化数据比结构化数据提供更大的灵活性,同时比纯粹的非结构化数据更容易自动解析和处理。
比较三种主要数据类型及其典型示例的图表。
理解这些区别对数据工程师非常重要。你正在处理的数据类型直接影响有关以下方面的决策:
随着课程推进,你将看到这些基本数据类型如何在关于数据库、数据仓库、数据湖以及连接它们的管道的讨论中反复出现。识别它们是掌握数据管理的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造