趋近智
好的,我们已经讨论了数据是如何处理的,区分了按计划运行的批处理作业和持续处理数据的流处理。但实际执行处理的是什么呢?无论是大量批次还是实时流,转换原始数据都需要计算能力。可以把它想成车辆需要引擎才能移动。数据处理也需要它自己的“引擎”,我们称之为计算资源。
数据处理的核心包含计算、数据传输和临时存储。提供这种能力的主要组件是:
有时,特别是在机器学习或复杂模拟(这些通常在数据工程步骤之后)中,另一个组件变得重要起来:
并非所有数据处理任务都需要同等对待。处理来自数千个设备的数TB传感器数据所需的资源,远多于分析一份小型日常销售报告。在数据工程中,这种根据任务需求调整处理能力的能力被称为伸缩。增加处理能力主要有两种方式:
一个图表显示了两种处理工作负载的方法:纵向扩展使用一台强大的机器,而横向扩展使用多台配合工作的机器。
批处理通常能从横向扩展中获益,使得海量数据集能够在合理的时间范围内在多台机器上并行处理。流处理也可以通过横向扩展来处理高容量的入站数据,确保连续处理而没有延迟。
传统上,组织会购买并维护自己的物理服务器(称为本地基础设施)。如今,从Amazon Web Services (AWS)、Google Cloud Platform (GCP)或Microsoft Azure等云服务商租用计算资源变得越来越普遍。
云平台提供了显著的灵活性:
我们将在第6章更详细地查看云平台。目前,请理解数据处理需要基础的计算资源(CPU、RAM),并且你需要有方法根据你的特定任务适当地伸缩这些资源,无论是使用自己的硬件还是借助云服务。有效管理这些资源是数据工程的核心部分,它能确保数据处理的可靠性和成本效益。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造