趋近智
当您的计算实例准备好开始训练任务时,它们首先会问:“数据在哪里?”与存储可能是直接连接磁盘或网络文件共享的本地系统不同,云环境更倾向于解耦架构。这种架构的核心即对象存储,它是存放机器学习所需海量数据集的标准、高扩展性方案。
对象存储与您笔记本电脑上的分层文件系统(如 NTFS 或 ext4)根本不同。它不以嵌套目录的形式组织文件,而是将数据作为在平面地址空间中称为对象的独立单元进行管理。每个对象包含三部分:
content-type: image/jpeg 或 source: sensor-123。可以将其想象成您数据的代客泊车服务。您交出数据(汽车),作为回报,会得到一张唯一的凭证(对象 ID)。您无需知道数据的确切物理位置,只需知道 ID 即可按需获取。这种抽象使得极大的规模和持久性成为可能。
一张图表,显示账户、存储桶以及存储桶内多个对象之间的关系。
每个主要云服务商都提供一个核心对象存储服务,构成其数据和 AI 产品的核心支持:
虽然它们的基本原理几乎相同,但术语略有不同。
| 特性 | AWS S3 | Google Cloud Storage | Azure Blob Storage |
|---|---|---|---|
| 存储容器 | 存储桶 | 存储桶 | 容器 |
| 数据单位 | 对象 | 对象 | Blob (块 Blob) |
| 唯一性范围 | 全局 (针对存储桶) | 全局 (针对存储桶) | 账户 (针对容器) |
| 主要 SDK 接口 | Boto3 | google-cloud-storage | azure-storage-blob |
这些服务具备高持久性,通常会在区域内跨多个物理数据中心复制您的数据,以防止硬件故障。这提供了一定程度的数据安全,是本地部署难以且成本高昂实现的。
云对象存储的一大优势是能够通过存储分层只为所需付费。并非所有数据都需要即时、频繁访问。您可以通过根据数据的访问模式选择合适的存储类别来大幅降低成本。
典型存储分层的细分如下:
常见对象存储分层的相对成本与取回时间对比。
大多数云服务商提供生命周期策略,这是您可以配置的自动化规则,用于对象在不同分层之间转换。例如,您可以设置规则,在 60 天后自动将数据从标准分层移动到不频繁访问分层,然后在一年后移动到归档分层。这可实现成本优化,无需人工干预。
对象存储的真正优势在于它与 AI/ML 生态系统的直接集成。现代框架和库可以直接从 S3、GCS 或 Blob 存储等服务流式传输数据,无需先复制到计算实例的本地磁盘。
s3://my-bucket/dataset-v1/train/image-001.jpg 和 s3://my-bucket/dataset-v1/test/image-555.jpg 可提供用于组织和访问控制的逻辑结构。这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造