编译后机器学习的性能分析

所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

编译后机器学习的性能分析