趋近智
常用于日常活动的数据存储系统旨在高效地捕捉快速、小规模的更新。这些操作型数据库,通常称为在线事务处理(OLTP)系统,擅长处理记录销售、更新库存或注册用户等任务。然而,当目标是分析历史趋势、整合来自业务不同部分的信息或回答复杂的分析问题时,这些系统可能会遇到困难。它们主要不是为这类大规模分析而构建的。
这时,数据仓库便发挥作用了。您可以将数据仓库视为一种专门的数据库,专为分析和报告而设计,这种做法通常被称为**商业智能(BI)**或在线分析处理(OLAP)。它不侧重于快速记录单个事务,其主要职责是从各种来源存储大量历史数据,其存储方式便于查询并随时间推移理解趋势。
设想一家大型零售公司。它可能拥有独立的数据库用于实体店销售(销售点系统)、在线网站订单、库存管理和营销活动。每个系统都在操作层面很好地履行职责。数据仓库会定期从所有这些来源提取数据,进行清理,使其保持一致,并统一存储。这使得分析师能够提出横跨这些不同方面的问题,例如:“我们最近的在线营销活动在上一季度如何影响了特定产品类别的店内销售?”仅使用独立的榀作型数据库来回答这个问题将非常困难且缓慢。
数据仓库通常具有一些显著特点,使其与标准操作型数据库有所不同:
客户、产品、销售或供应商。这与操作型数据库形成对比,操作型数据库通常围绕特定应用程序流程(如订单录入或库存控制)组织。这种面向主题的特点使得分析与这些核心方面相关的业务表现变得更容易。构建和维护数据仓库需要付出努力,那么组织为何要投入其中呢?主要益处包括:
数据仓库通常存储高度结构化的数据,常驻于关系型数据库系统,它们经过优化,更适合读取大量数据而非频繁写入事务。其内部结构常采用特定的设计模式,例如星型模式或雪花模式,这些模式将数据组织成中心“事实”表(包含销售额等度量数据),周围是“维度”表(包含时间、产品详情或客户信息等描述性属性)。虽然这些模式的细节很复杂,但它们的目的在于使分析查询高效。
数据通过称为**ETL(抽取、转换、加载)或ELT(抽取、加载、转换)**的过程进入数据仓库,我们将在下一章关于数据管道的讨论中进一步了解。这些过程负责从源头提取数据,进行清理和重塑(转换),然后将其载入数据仓库(加载)。
数据从各种操作型源流出,经过处理(ETL/ELT),并加载到中心数据仓库。分析师和BI工具随后查询数据仓库以获取信息。
与为快速事务设计的标准操作型数据库(OLTP)相比,数据仓库是为复杂的分析查询(OLAP)而构建的。它位于原始数据源和执行分析的最终用户之间,提供一个干净、整合、历史信息丰富的数据集,该数据集专为理解业务表现而定制。它与数据湖(我们接下来会探讨)的不同之处,主要体现在其侧重于存储结构化的、经过处理的、可供分析的数据,而数据湖通常以各种格式保存原始数据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造