基础设施部署完毕,应用程序也已容器化,接下来就是要确保您的机器学习工作负载高效运行。即使拥有像GPU这样强大的硬件,也无法保证达到最佳性能。低效的代码或结构不佳的数据管道可能导致大量资源闲置,进而增加训练时间和运营成本。目标是最大化吞吐量,缩短训练时长,并降低推理延迟。本章将介绍一系列实用技术,以提升您的AI系统性能。我们首先会使用性能分析工具,找出性能瓶颈所在,无论是发生在CPU处理、GPU计算还是数据I/O方面。之后,您将学习到具体的优化策略。我们将讲解分布式训练方法,以便将训练任务扩展到多块GPU上。您还将学习实现混合精度训练,该方法使用$FP16$等格式来加速计算并减少内存占用。对于部署,我们将介绍模型量化技术,以创建更小、更快的模型用于推理。最后,我们将讲解如何构建高效的数据管道,使您的计算资源得到充分使用。