趋近智
训练复杂模型或大规模部署时,常会达到计算性能的极限。缓慢的训练周期会增加开发时间和成本,而高推理 (inference)延迟则会损害用户体验。基于对 TensorFlow 执行模型的理解,本章着重讲解如何使您的 TensorFlow 代码运行得更快、更高效。
您将学会如何使用 TensorBoard Profiler 系统地找出性能瓶颈。本章将介绍提升硬件利用率的方法,重点讲解 GPU,并引入 Google 的张量处理器 (TPU)。主要的优化策略将详细介绍,包括:
tf.data 管道,以有效地预取和准备数据,防止 CPU 在训练期间成为瓶颈。在本章结束时,您将掌握分析 TensorFlow 模型和数据管道性能特点的工具和知识,能够应用特定优化措施,在各种硬件平台上获得明显的提速。
2.1 使用 TensorBoard Profiler 分析 TensorFlow 代码性能
2.2 优化 GPU 利用率
2.3 混合精度训练技术
2.4 张量处理单元(TPU)介绍
2.5 XLA(加速线性代数)编译
2.6 tf.data 管道的性能考量
2.7 模型性能分析与加速实践