将机器学习操作迁移到云端时,首要决定通常是选择服务商。尽管有数百家公司提供云服务,但业界主要由三大平台构成:亚马逊网络服务 (AWS)、谷歌云平台 (GCP) 和微软 Azure。每个平台都提供一套成熟的工具、计算选项和托管服务,专为人工智能开发定制。了解它们各自的特色、主要服务和专用硬件,是构建高效云端人工智能基础设施的首要步骤。亚马逊网络服务 (AWS)作为市场份额最大、运营时间最长的服务商,AWS 提供广泛而成熟的服务集合。其策略是提供全面的工具集,几乎可以支持所有应用场景,从小型实验到大规模生产级别的人工智能系统。其人工智能服务的主要服务是 Amazon SageMaker,一个端到端托管平台。SageMaker 旨在覆盖整个机器学习生命周期,提供数据标注、特征工程、模型构建(集成 Jupyter 笔记本)、训练和一键部署等服务。对于原始计算能力 (IaaS),AWS 提供 Amazon Elastic Compute Cloud (EC2) 实例。这些虚拟机有许多系列,针对不同任务进行了优化。对于人工智能,最适合的包括:P 系列: 配备高性能 NVIDIA GPU(例如 A100),专为大规模分布式训练设计。G 系列: 具有更具成本效益的 GPU,适合图形密集型应用程序和较小规模的机器学习训练与推理。除了标准 GPU,AWS 投入大量资源开发了自己的定制芯片。AWS Trainium 芯片是专门构建的,为深度学习模型训练提供经济高效的替代方案,而 AWS Inferentia 加速器则专为高性能、低延迟的推理而设计。这些定制芯片直接与 SageMaker 和流行的机器学习框架集成。整个生态系统由 Amazon S3 (简单存储服务) 支持,S3 是对象存储的标准,它作为 AWS 上大多数人工智能工作负载的主要数据湖。谷歌云平台 (GCP)谷歌在人工智能研究方面有深厚历史,从开发 TensorFlow 到开创 Transformer 架构,这些都直接影响了其云服务产品。GCP 的优势在于其专为人工智能构建的服务和专用硬件。其托管人工智能服务的主体是 Vertex AI。这个统一平台将之前的谷歌人工智能工具整合到一个单一环境中,提供数据管理、模型训练、MLOps 功能(如实验跟踪)和模型服务等服务。GCP 在硬件方面最显著的差异化点是其 张量处理单元 (TPU)。这些是由谷歌设计的专用集成电路 (ASIC),用于加速在深度学习工作负载中占主导地位的矩阵计算。对于大规模训练,尤其是使用 TensorFlow 或 JAX 时,TPU 在每美元性能上可以比传统 GPU 提供显著优势。除了 TPU,GCP 也提供配备 NVIDIA GPU 的标准 Compute Engine 虚拟机,供有需求的用户使用。该平台与谷歌的其他服务紧密结合。谷歌云存储 (GCS) 提供可扩展的对象存储,而无服务器数据仓库 BigQuery 则支持在数据输入模型之前,对其结构化数据进行强大的分析和准备。微软 Azure微软 Azure 在企业市场中占据强大地位,其人工智能平台通过提供与其他业务工具和服务的紧密集成来体现这一点。Azure 提供一个灵活的环境,能够同样满足数据科学家、应用程序开发者和 MLOps 工程师的需求。Azure 机器学习 是该平台上人工智能开发的中心平台。它是一个高度通用的服务,支持多种开发模式。您可以使用其 Python SDK 进行代码优先的体验,也可以使用其可视化“设计器”进行低代码、拖放式界面来构建和部署模型。这种灵活性使得不同编程技能水平的团队都能方便使用。对于 IaaS,Azure 提供多个系列的启用 GPU 的虚拟机:NC 系列: 针对计算密集型和高性能计算 (HPC) 工作负载进行了优化,配备现代 NVIDIA GPU。ND 系列: 专注于深度学习训练,通常配备通过高速互联连接的最新高端 GPU,用于分布式任务。这些计算选项由 Azure Blob 存储 支持,以实现可扩展的数据存储。Azure 生态系统的一个值得注意的特点是其与 Azure Databricks 的紧密结合,为大规模数据工程和数据科学提供一流的协作环境,并能与 Azure 机器学习配合使用。比较人工智能服务栈尽管所有三家服务商都提供人工智能所需的基本构成部分,但它们的主要产品和专用硬件形成了独特的生态系统。选择哪个平台通常取决于其理念和工具最符合您团队的需求和现有基础设施。digraph G { rankdir=TB; graph [bgcolor="transparent", fontname="sans-serif"]; node [shape=box, style="rounded,filled", fontname="sans-serif"]; edge [fontname="sans-serif"]; subgraph cluster_providers { label = "云提供商"; style="rounded"; bgcolor="#e9ecef"; AWS [label="Amazon Web Services", fillcolor="#a5d8ff"]; GCP [label="Google Cloud Platform", fillcolor="#b2f2bb"]; Azure [label="Microsoft Azure", fillcolor="#bac8ff"]; } subgraph cluster_managed { label = "托管式人工智能平台"; style="rounded"; bgcolor="#e9ecef"; SageMaker [label="Amazon SageMaker", fillcolor="#15aabf"]; VertexAI [label="Vertex AI", fillcolor="#37b24d"]; AzureML [label="Azure Machine Learning", fillcolor="#4c6ef5"]; } subgraph cluster_hardware { label = "专用硬件"; style="rounded"; bgcolor="#e9ecef"; CustomAWS [label="Trainium & Inferentia", fillcolor="#ffc078"]; TPU [label="Tensor Processing Units (TPUs)", fillcolor="#ffc078"]; node_placeholder [label="N/A", style=invis]; } AWS -> SageMaker; GCP -> VertexAI; Azure -> AzureML; AWS -> CustomAWS; GCP -> TPU; {rank=same; AWS; GCP; Azure;} {rank=same; SageMaker; VertexAI; AzureML;} {rank=same; CustomAWS; TPU; node_placeholder;} }三大主要云提供商的人工智能/机器学习主要服务。每个提供商都提供全面的托管平台,AWS 和 GCP 也提供自主设计的硬件,用于加速人工智能工作负载。