虽然自建基础设施能提供最佳掌控,但云平台提供了一种以灵活性和按需扩展能力为特点的替代途径。本章将我们的侧重点从拥有硬件设备转移到使用主流云服务提供商提供的丰富计算资源。主要的权衡在于放弃直接的硬件管理,以换取对专用加速器、托管服务以及按需付费定价模式的使用权。在此,您将学习如何选用AWS、GCP和Azure等提供商的服务产品。我们将比较基本虚拟机(即基础设施即服务,IaaS)与SageMaker或Vertex AI等更高级别的托管式AI平台之间的异同。您将掌握选择适合训练和推理工作负载的GPU和CPU实例、配置用于大型数据集的对象存储,以及使用虚拟私有云(VPC)搭建安全网络环境的技能。本章最后是一个动手实践环节,您将在此处预置并连接到启用了GPU的云实例,并将这些原理付诸实践。