所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

高级代数简化

这部分内容有帮助吗？

参考文献

XLA: Accelerated Linear Algebra, Google Developers, 2024 (Google) - 提供XLA的概述，这是一个用于线性代数的领域特定编译器，详细介绍了其优化过程，包括机器学习工作负载的代数简化。
TVM: An End-to-End Deep Learning Compiler Stack for CPUs, GPUs, and Specialized Accelerators, Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, and Arvind Krishnamurthy, 2018 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI '18) (USENIX Association) DOI: 10.5555/3342356.3342465 - 描述了TVM的图级别优化过程，包括计算图简化和转换技术，这是深度学习编译器中高级代数优化的基础。
Halide: A Language and Compiler for Optimizing Parallel Programs on GPUs and CPUs, Jonathan Ragan-Kelley, Connelly Barnes, Andrew Adams, Sylvain Paris, Frédo Durand, Saman Amarasinghe, 2013 ACM SIGPLAN Notices, Vol. 48 (Association for Computing Machinery (ACM)) DOI: 10.1145/2499370.2462176 - 介绍了Halide，一种编程语言和编译器，它为图像处理管道引入了声明式方法，为现代ML编译器中使用的图IR和优化过程提供了基本概念。

© 2026 ApX Machine Learning用心打造