构建机器学习模型是整个流程的一部分。让模型在大规模环境下稳定运行,则是另一个更复杂的工程难题。任何高级人工智能系统的效能都受到其底层支撑结构设计的根本制约。在计算、网络和存储方面看似微小的架构选择,可能在训练时间、推理延迟和运营成本上造成明显的差异。本章将确立高性能人工智能平台的基本硬件和软件模式。我们将介绍支持高要求机器学习工作负载所需的具体支撑结构组件。您将学会:将MLOps原则应用于大型生产导向环境。针对特定机器学习任务,分析CPU、GPU和TPU架构之间的优缺点。理解NVLink和InfiniBand等高带宽互连技术在多节点训练中的作用。比较从对象存储到并行文件系统等不同存储方案,以适应机器学习数据访问模式。评估网络拓扑,以避免分布式集群中的通信瓶颈。最后,我们将通过动手实践,为您配置本课程所需的本地和云环境。此设置将为您在后续章节中的技术实现做好准备。