所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

异构系统调度

这部分内容有帮助吗？

参考文献

TVM: An End-to-End Optimizing Compiler for Deep Learning, Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy, 2018 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18) (USENIX Association) DOI: 10.5555/3342371.3342416 - 本文介绍了TVM，一个深度学习编译器栈，它优化并部署模型到各种硬件后端，专注于异构执行和硬件特定优化。
A Survey on Deep Learning System Optimization: From Algorithm to Hardware, Yujun Chen, Shuchang Sheng, Xiaolong Ma, Peiyan Dong, Zhiye Tang, Junru Zhao, Yuanjie Xie, and Shaoli Liu, 2020 Proceedings of the IEEE, Vol. 108 (IEEE) DOI: 10.1109/JPROC.2020.2991739 - 本调查全面概述了深度学习系统中的各种优化技术，包括对异构调度、通信优化和内存管理。
GSPMD: General and Efficient Parallelism for ML Workloads, Yuanzhong Xu, Jiri Simsa, Jeremy Smith, D. J. Bernstein, Yuan Zhang, Sarah Sirajuddin, and Anna Goldie, 2021 Proceedings of Machine Learning and Systems (MLSys '21), Vol. 3 (MLSys) DOI: 10.48550/arXiv.2105.04694 - 本文介绍了GSPMD，一个用于在异构设备上自动高效地并行化机器学习工作负载的系统，其包含了用于数据移动和设备放置的策略。
Ansor: Generating High-Performance Tensors with N-Dimensional Search Space Auto-Tuning, Lianmin Zheng, Chengfan Jia, Minmin Sun, Zhao Wu, Cody Hao Yu, Ameer Haj-Ali, Yida Wang, Jun Yang, Danyang Zhuo, Koushik Sen, Joseph E. Gonzalez, Ion Stoica, 2020 14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20) (USENIX Association) DOI: 10.5555/3474345.3474397 - 本文详述了一个深度学习编译器的自动调优框架，它依赖于准确的性能模型和硬件表征，以动态优化异构硬件上的张量程序。

© 2025 ApX Machine Learning用心打造