趋近智
数据清洗和结构化之后,通常需要对其进行汇总。你可能不想查看每一笔交易或事件,而是希望获得更宏观的视图,例如每日总销售额或每个城市的注册用户数。这种汇总数据的过程称为聚合。
聚合是指将具有相同属性值的行进行分组,然后对这些组进行计算,为每个组生成一个单一的汇总值。可以把它看作是将大量的详细信息浓缩成更容易理解的概要。
聚合是重要的转换步骤,原因如下:
虽然可以使用多种计算,但有些聚合函数在ETL过程中特别常用:
假设你提取的原始销售交易数据如下所示:
| 交易ID | 产品 | 区域 | 销售金额 |
|---|---|---|---|
| 1 | Widget A | North | 100 |
| 2 | Widget B | South | 150 |
| 3 | Widget A | North | 120 |
| 4 | Widget C | East | 80 |
| 5 | Widget B | North | 90 |
| 6 | Widget A | South | 110 |
这些详细数据很有用,但目标分析系统可能只需要知道每个区域的总销售额。你可以通过聚合来实现这一点。
你需要根据Region列对数据进行分组,并对每个组的SalesAmount列应用SUM()函数。这个转换过程将生成以下汇总表:
| 区域 | 总销售额 |
|---|---|
| North | 310 |
| South | 260 |
| East | 80 |
这个聚合表小得多,并且直接回答了“每个区域的总销售额是多少?”这个问题。
每个区域的总销售额已聚合。
数据聚合是一种高效的转换方法,用于将大型数据集提炼成有意义的摘要,为ETL过程中的有效分析和报告做准备。它是初步清洗和结构化之后进行的一项标准操作,旨在为数据最终去向进行塑形。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造