所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

为张量核心和矩阵单元生成代码

这部分内容有帮助吗？

参考文献

NVIDIA Volta GV100 GPU Architecture, NVIDIA Corporation, 2017 (NVIDIA Corporation) - 介绍了NVIDIA Volta架构及其Tensor Cores，详细阐述了其加速深度学习工作负载的原理和初始功能。
AMD Instinct MI200 Series: The CDNA2 Architecture, AMD, 2021 (AMD) - 描述了驱动AMD Instinct MI200 GPU的CDNA2架构，包括其矩阵核心单元（MFMA指令）的设计和功能。
CUDA C++ Programming Guide, NVIDIA, 2023 (NVIDIA) - 提供了NVIDIA GPU编程的全面指导，详细说明了如何通过CUDA内联函数使用Tensor Cores以及性能优化方法。
TVM: An Automatic End-to-End Optimizing Compiler for Deep Learning, Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy, 2018 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18) (USENIX Association) - 介绍了TVM，一个自动编译器框架，通过模块化优化路径为包括专用矩阵单元在内的各种硬件优化深度学习工作负载。
Triton: An Intermediate Language and Compiler for GPU Programming, Philippe Tillet, H. T. Kung, David Cox, 2019 Proceedings of the 3rd ACM SIGPLAN International Workshop on Machine Learning and Programming Languages (MAPL '19) (ACM) DOI: 10.1145/3315508.3329973 - 介绍了Triton，一种旨在简化和优化GPU高性能内核生成的中间语言和编译器，特别是针对利用Tensor Cores的操作。

© 2025 ApX Machine Learning用心打造