扩展离线计算

尽管低延迟的在线服务常受到较多关注，但高效计算大型历史数据集的特征能力，对于模型训练、回溯测试和分析同样重要。随着数据量从千兆字节增长到太字节甚至拍字节，以及特征转换变得更为复杂（涉及连接、时间窗口聚合或序列分析），单节点计算变得不可行。因此，扩展离线计算管道是生产级特征平台的基本要求。

这通常涉及使用旨在处理集群中大规模数据操作的分布式处理框架。这些框架会自动管理数据分发、并行任务执行和容错，让您可以专注于特征逻辑本身。

分布式处理框架的作用

Apache Spark和Apache Flink等框架是大规模数据处理的主力工具，常用于离线特征计算。

Apache Spark： 一个广泛采用的大规模数据处理引擎。其核心抽象，弹性分布式数据集（RDD），及其高级API（DataFrames和Datasets）提供了表达复杂转换的强大灵活方式。Spark的Catalyst优化器将声明式代码（如SQL查询或DataFrame操作）转换为高效的物理执行计划，其Tungsten执行引擎优化了CPU和内存使用。Spark擅长批处理和机器学习 (machine learning)中常见的迭代算法。
Apache Flink： 尽管常因其有状态流处理能力而受到关注，Flink也提供了强大的批处理API（DataSet API、Table API和SQL）。它对状态管理和精确一次处理语义提供细致的控制，这对于某些特征工程任务有益，特别是那些涉及复杂事件时间处理或在批处理模式下需要强一致性保证的任务。

这些框架背后的基本原理是数据并行：将大型数据集拆分为较小的分区，并在集群中的多个节点（工作节点或任务管理器）上并行处理这些分区。

扩展离线计算的核心理念

成功扩展离线作业需要了解分布式框架如何运行：

数据分区： 数据在节点间的划分方式显著影响性能。框架根据键对数据进行分区或轮询分发。不良分区可能导致数据倾斜，即某些分区远大于其他分区，造成瓶颈，因为处理这些分区的任务耗时过长。选择合适的分区键（例如，连接特征表时的entity_id），并在耗时操作前策略性地重新分区数据非常重要。
并行执行： 转换被分解为在各个分区上操作的任务。集群管理器（如YARN或Kubernetes）将资源（CPU核心、内存）分配给执行器（Spark）或任务管理器（Flink），这些资源并行运行这些任务。最大化并行度需要足够的集群资源和良好分布的数据。
数据混洗： 像groupByKey、reduceByKey、join和distinct等操作（在非分区或不同分区数据上操作时）常需要进行数据混洗。这涉及在网络上重新分发数据，以便具有相同键的数据最终到达同一个工作节点进行聚合或连接。数据混洗由于网络I/O和序列化/反序列化开销而代价较高。最小化数据混洗是优化的主要目标。方法包括：
- 尽可能使用避免数据混洗的操作（例如，在Spark中通常优于groupByKey，因为reduceByKey在数据混洗前执行部分聚合）。
- 仔细组织连接（例如，对小表使用广播连接）。
- 确保数据在大量数据混洗操作之前被适当地分区。

实现可扩展的特征工程管道

使用Spark或Flink等框架时，请考虑以下实践：

使用高级API： 尽可能使用DataFrames/Datasets（Spark）或Table API/SQL（Flink）。这些API允许框架的优化器生成比RDD等低级API更高效的执行计划。
使用内置函数： 如果可用，优先使用标准库函数而非用户定义函数（UDF）。内置函数通常高度优化并与执行引擎集成。UDF对优化器来说可能像黑盒 (black box)一样，并可能产生序列化开销。
优化连接： 连接在特征工程中很常见（例如，连接交易数据和用户画像）。了解不同的连接策略（广播哈希连接、混洗哈希连接、排序合并连接）以及框架如何选择它们。提供提示或构造查询以实现更高效的策略，例如广播较小的维度表。
高效窗口函数： 时间窗口聚合经常需要。请注意窗口函数的定义方式。大的窗口规范可能导致大量数据混洗或执行器上的高内存压力。优化窗口定义并确保在应用窗口逻辑之前数据按实体分区。

代码结构中的优化技术

序列化： 数据需要序列化以进行网络传输（数据混洗），也可能用于缓存。Java的默认序列化通常较慢且冗余。使用像Kryo（在Spark中）这样的更快序列化器可以显著提升性能，尤其是在大量数据混洗的作业中。向序列化器注册自定义类对于获得最佳结果很重要。
```
// 启用Kryo的SparkConf示例
val conf = new SparkConf()
  .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
  .set("spark.kryo.registrationRequired", "true") // 可选：如果类未注册则失败
  .registerKryoClasses(Array(classOf[MyFeatureClass1], classOf[MyFeatureClass2]))
```
内存管理： 分布式作业通常是内存密集型的。
- 执行器内存： 为执行器分配足够的内存（spark.executor.memory，Flink的taskmanager.memory.process.size）。内存不足会导致过多的磁盘溢出和垃圾回收（GC）暂停。内存过多可能导致更长的GC暂停和低效的资源使用。
- 内存开销： 考虑JVM、库和框架本身所需的内存开销（spark.executor.memoryOverhead，Flink的内存模型组件）。
- 垃圾回收调优： 监控GC性能。有时切换到不同的GC算法（如G1GC）或调整其参数 (parameter)会有所帮助。
- 驱动节点内存： 确保驱动节点（协调作业的节点）有足够的内存，特别是如果您将大量数据收集回驱动节点（通常应避免这样做）。
缓存和持久化： 如果一个中间DataFrame或DataSet在管道中多次重用，将其缓存在内存中（.cache()或.persist(StorageLevel.MEMORY_ONLY)）或磁盘上可以节省重新计算时间。但是，缓存会消耗资源，因此只应谨慎地用于计算开销大且频繁重用的数据集。
处理数据倾斜： 如果数据集中某些键占主导地位，处理这些键的任务会成为瓶颈。缓解数据倾斜的策略包括：
- 加盐： 在分组或连接之前为倾斜的键添加随机后缀，然后在第二阶段聚合结果。
- 拆分大分区： 一些框架提供在处理过程中进一步细分大分区的机制。

资源管理和集群配置

运行大规模作业需要有效的集群管理：

集群管理器： 使用YARN或Kubernetes等资源管理器来高效地为您的Spark/Flink应用程序分配和管理资源。
资源分配： 根据您的工作负载和集群大小，适当配置执行器/任务管理器的数量、每个执行器的核心数和每个执行器的内存。考虑使用动态分配（如果支持）根据负载自动扩展执行器的数量，但这可能在获取新资源时引入延迟。
监控： 使用框架的UI（Spark UI、Flink仪表板）和集群监控工具（如Ganglia、Prometheus/Grafana）来跟踪作业进度、资源利用率（CPU、内存、网络、磁盘I/O）、识别瓶颈并诊断故障。查找长时间运行的任务、过多的GC时间或高数据混洗读/写指标。

与离线特征平台的集成

扩展的计算管道必须顺畅集成到离线存储：

读取数据： 从离线存储层（例如，使用Parquet、ORC、Delta Lake、Hudi等格式的S3/ADLS/GCS等数据湖）高效读取源数据或预先计算的特征。尽可能地使用谓词下推，以便在存储层进行过滤，减少数据读取量。
写入特征： 将新计算或更新的特征写回离线存储。使用高效的文件格式。考虑在离线存储中对输出数据进行分区（例如，按日期和/或特征组），以优化训练数据集生成时的下游读取。确保写操作是原子性的或幂等的，尤其是在更新现有特征表时，可以考虑使用支持事务的表格式，如Delta Lake或Hudi。

离线计算扩展的示意图。原始数据和现有特征由驱动节点读取，驱动节点将转换任务（例如，任务1a、1b、1c）分发到工作节点/执行器上。需要数据重分发的操作会在网络上触发数据混洗阶段。最后，结果会写回离线存储。

扩展离线计算不是一次性任务，而是一个持续的监控、调优并适应不断变化的数据量和特征复杂性的过程。通过理解分布式处理原理和应用有针对性的优化技术，您可以确保您的特征工程管道高效可靠地运行，支持大规模机器学习 (machine learning)模型开发的严格要求。

这部分内容有帮助吗？

参考文献

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Haoyuan Li, Scott Shenker, and Ion Stoica, 2012 USENIX Conference on Networked Systems Design and Implementation (NSDI) DOI: 10.5555/2632222.2632227 - 描述了核心的弹性分布式数据集（RDD）抽象，这是Apache Spark分布式计算模型和容错功能的基础。
Apache Spark Documentation, The Apache Software Foundation, 2024 - 提供Apache Spark的详细技术信息、使用指南和优化策略，涵盖其API、配置和大规模数据处理的性能调优。
Apache Flink Documentation, The Apache Software Foundation, 2025 - 提供Apache Flink的完整文档，包括其批处理能力、Table API与SQL，以及与大规模特征计算相关的部署指南。
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 系统地概述了可靠、可扩展和可维护数据系统背后的原则，包括数据模型、分布式事务和批处理架构等主题。
Michelangelo: Uber's Machine Learning Platform, Sibylle Lanz, Jeremy H. Hong, Kai Jiang, Mayur Rustagi, Gaurav Singh, Mike Wu, David Xiao, and Andrew P. Zang, 2017 2017 IEEE International Conference on Data Science and Advanced Analytics (DASFAA) (IEEE) DOI: 10.1109/DSAAE.2017.8286940 - 介绍了Uber的端到端机器学习平台Michelangelo，详细说明了其架构和组件，包括依赖可扩展离线计算的特征存储。该URL指向论文的易于访问的摘要。