所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

生成低精度核函数

这部分内容有帮助吗？

参考文献

NVIDIA H100 Tensor Core GPU Architecture, NVIDIA Corporation, 2022 (NVIDIA) - 提供了Hopper GPU的架构细节，包括FP8格式（E4M3, E5M2）、Tensor Core以及用于低精度推理的矩阵乘加指令。
Intel 64 and IA-32 Architectures Optimization Reference Manual, Intel Corporation, 2023 Vol. 1 (Intel Corporation) - 详细介绍了优化技术和指令集，包括AVX512-VNNI指令（如VPDPBUSD），用于加速CPU上的整数点积运算。
MLIR: A Compiler Infrastructure for the End of Moore's Law, Chris Lattner, Vinay Pidatala, Mehdi Amini, and Albert Cohen, 2021 ACM Transactions on Programming Languages and Systems (TOPLAS), Vol. 43 (ACM) DOI: 10.1145/3475737 - 介绍了MLIR编译器基础设施，它提供了多级IR和方言，适用于将高级机器学习操作表示并转换为针对特定目标的低精度指令。
Deep Learning Compilers: A Comprehensive Survey, Yongwei Zhao, Kaiqi Chen, Peng Li, Jiasheng Xu, Pengcheng Wang, and Shuaiwen Leon Song, 2023 ACM Computing Surveys, Vol. 55 (Association for Computing Machinery) DOI: 10.1145/3544547 - 提供了深度学习编译器的一个广泛概述，包括对中间表示、优化技术以及与生成高效低精度内核相关的硬件后端进行讨论。

© 2025 ApX Machine Learning用心打造