训练复杂模型或大规模部署时,常会达到计算性能的极限。缓慢的训练周期会增加开发时间和成本,而高推理延迟则会损害用户体验。基于对 TensorFlow 执行模型的理解,本章着重讲解如何使您的 TensorFlow 代码运行得更快、更高效。您将学会如何使用 TensorBoard Profiler 系统地找出性能瓶颈。本章将介绍提升硬件利用率的方法,重点讲解 GPU,并引入 Google 的张量处理器 (TPU)。主要的优化策略将详细介绍,包括:混合精度训练: 使用 $float16$ 等低精度数值格式,以加快计算速度并减少兼容硬件上的内存占用。XLA(加速线性代数)编译: 使 TensorFlow 的编译器能够合并运算,并为特定加速器生成优化代码。高效输入管道: 设计 tf.data 管道,以有效地预取和准备数据,防止 CPU 在训练期间成为瓶颈。在本章结束时,您将掌握分析 TensorFlow 模型和数据管道性能特点的工具和知识,能够应用特定优化措施,在各种硬件平台上获得明显的提速。