趋近智
高性能GPU能够以惊人的速度处理数据,但其效率完全取决于数据传输的速度。当存储系统无法跟上计算引擎的需求时,就会产生输入/输出(I/O)瓶颈,导致昂贵的加速器闲置。对于机器学习 (machine learning)而言,数据集可达千兆字节(GB)至拍字节(PB),选择合适的存储方案是基础设施设计中的重要组成部分。
AI的理想存储系统需平衡三个性能指标:吞吐量 (throughput)、延迟和容量。
存储方案大致分为本地存储、网络附加存储和对象存储,每种都提供了这些性能指标的不同组合。
本地存储直接连接到执行计算的机器。这种物理接近性提供了尽可能低的延迟,并且凭借适当的技术,可实现最高的吞吐量 (throughput)。
常见本地存储类型的性能特征。请注意延迟使用对数刻度,这突显了设备类型之间数量级的差异。
当数据集过大,无法存储在单台机器上,或需要多个计算节点同时访问以进行分布式训练时,您必须转向基于网络的解决方案。
网络附加存储(NAS): NAS是一种专用文件存储服务器,它通过局域网(LAN)向其他机器提供存储,通常使用NFS(网络文件系统)等协议。配备高速网络(10GbE或更快)的高性能NAS可以有效地向小型机器集群提供数据。然而,如果许多客户端同时发出请求,NAS设备本身可能成为单点故障和性能瓶颈。
分布式文件系统: 对于大规模操作,分布式文件系统通常是解决方案。这些系统将来自多个服务器(节点)的存储汇集到一个统一的命名空间中。数据分散在各个节点上,一个文件可以同时从多个磁盘并行读取,从而提供极高的聚合吞吐量 (throughput)。Ceph或Lustre等系统是高性能计算(HPC)和大型AI集群中使用的实例。它们设置和管理复杂,但提供单个NAS所不具备的扩展性和容错性。
云提供商提供一种高度可扩展且持久的存储方法,即对象存储。Amazon S3、Google Cloud Storage (GCS) 和 Azure Blob Storage 等服务是云中数据存储的核心部分。
对象存储不使用文件夹和文件的分层文件系统,而是将数据作为“对象”在扁平地址空间中管理。每个对象由数据本身、一些元数据和一个唯一ID组成。
AI存储方案的层级结构。性能通常会随着数据远离计算核心而下降,以速度换取更大的规模和共享能力。
存储方案的选择涉及权衡。对于在笔记本电脑上工作的数据科学家来说,一个大容量的内置NVMe驱动器可能就足够了。对于一家初创公司来说,构建其第一个专用AI服务器时,由NVMe驱动器组成的RAID阵列是一个强大的起点。对于运行在数十个GPU上进行分布式训练的大型企业来说,分布式文件系统或结合云对象存储与高性能本地缓存的混合方法变得必要。理解这些权衡对于设计能够处理您的数据而不仅仅是模型的IT架构是根本性的。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•