趋近智
您已经学习了许多通过精密编译器和运行时策略来优化机器学习 (machine learning)模型的方法。然而,应用这些优化只是过程的一部分。衡量它们的效果并找出剩余的性能瓶颈,是确保最高性能的必要步骤。编译器执行的复杂转换常常使得理解最终执行代码的性能特点变得困难。
本章侧重于有效分析编译后机器学习工作负载所需的工具和方法。我们将介绍:
本章结束后,您将能够使用高级性能分析工具诊断编译后的机器学习代码中的性能问题,从而指导后续的优化工作。
9.1 编译后的机器学习代码性能分析中的挑战
9.2 系统级性能分析 (CPU、GPU、互连)
9.3 CPU 性能分析 (VTune, perf)
9.4 GPU核心性能分析 (Nsight Compute, ROCprof)
9.5 关联框架操作与编译内核
9.6 内存访问模式分析
9.7 理解编译器优化报告
9.8 动手实践:分析优化模型的性能