所有课程

针对机器学习任务的高级编译器与运行时优化

章节 1: 开篇：机器学习执行栈与挑战

机器学习模型部署差距

机器学习编译器与运行时栈概览

机器学习推理中的性能瓶颈

专门优化的必要性

章节 2: 机器学习的高阶中间表示

传统编译器IR的局限性

多级中间表示的原理

MLIR：方言和操作

表示高层ML图（例如TF, TOSA）

MLIR 中的下沉路径

可扩展性与自定义方言

动手实践：分析 MLIR 表示

章节 3: 高级图级别优化

图重写系统

激进的算子融合技术

内存感知布局转换

高级代数简化

静态内存规划与分配

图中的控制流处理

实践操作：实现组合操作遍

章节 4: 张量级优化与多面体建模

将张量计算表示为循环嵌套

多面体建模简介

迭代域、访问函数和依赖

调度变换 (倾斜变换, 分块)

多面体调度下的代码生成

自动向量化技术 (SIMD)

内存层级优化：分块和预取

动手实践：使用多面体工具优化循环

章节 5: 异构硬件的代码生成

目标硬件指令选择

向量/矩阵单元的寄存器分配

GPU 代码生成：CUDA 和 ROCm 后端

为张量核心和矩阵单元生成代码

针对AI加速器（TPU、NPU）的代码生成

用于异构执行的中间格式 (SPIR-V)

供应商专用编译器工具链和库 (cuDNN, MIOpen)

动手实践：分析生成的GPU核函数

章节 6: 高级机器学习运行时系统

运行时架构概览

处理动态形状和大小

高效内存管理策略

异步执行与调度

异构系统调度

整合定制算子与核函数

机器学习框架的互操作性

动手实践：实现一个简单的分配器

章节 7: 面向机器学习的即时 (JIT) 编译技术

ML中JIT编译的动因

追踪与脚本方法

JIT系统中的中间表示

运行时专门化与多态性

即时编译器（JIT）中的配置文件引导优化（PGO）

自适应与多层编译

案例分析：TensorFlow XLA

案例研究：PyTorch JIT (TorchScript)

实践操作：分析JIT编译代码

章节 8: 量化与低精度优化

模型量化基础 (INT8, FP8)

在IR中表示量化操作

量化感知训练 (QAT) 的编译器处理过程

训练后量化 (PTQ) 编译流程

生成低精度核函数

混合精度计算优化

量化比例和零点的处理

动手实践：量化操作的降级处理

章节 9: 性能分析工具

编译后的机器学习代码性能分析中的挑战

系统级性能分析 (CPU、GPU、互连)

CPU 性能分析 (VTune, perf)

GPU核心性能分析 (Nsight Compute, ROCprof)

关联框架操作与编译内核

内存访问模式分析

理解编译器优化报告

动手实践：分析优化模型的性能

内存感知布局转换

这部分内容有帮助吗？

参考文献

MLIR: A Compiler Infrastructure for the End of Moore's Law, Chris Lattner, Jacques A. Pienaar, Mehdi Amini, Uday Bondhugula, River Riddle, Albert Cohen, Tatiana Shpeisman, Andy Davis, Nicolas Vasilache, Oleksandr Zinenko, 2020 arXiv, Vol. abs/2002.11054 DOI: 10.48550/arXiv.2002.11054 - 描述了 MLIR 的架构和原则，这是一个支持多级 IR 的编译器基础设施，适用于各种领域，并支持内存感知的布局转换等高级优化。
NVIDIA cuDNN Developer Guide, NVIDIA Corporation, 2024 (NVIDIA Corporation) - 官方指南，详细介绍了使用 cuDNN 的最佳实践，包括张量数据布局（NCHW、NHWC）及其对深度学习操作 GPU 性能的影响。
Deep Learning Systems: Algorithms, Compilers, and Processors for Efficient Intelligence, Yu-Hsin Chen, Jeff Pool, Kunle Olukotun, Jason Cong, 2020 (Springer) DOI: 10.1007/978-3-030-49667-2 - 提供了一个设计高效深度学习系统的全面视角，涵盖了编译器技术、内存层次结构和针对各种硬件的数据布局优化。
Data Layout Optimization for Deep Learning Training, Shixin Xu, Minghua Chen, Lei Huang, Shaochen Sun, 2020 Proceedings of the VLDB Endowment, Vol. 13 (VLDB Endowment) DOI: 10.14778/3400790.3400827 - 侧重于系统性的数据布局优化策略，以提高深度学习训练工作负载的性能，解决了 NCHW 和 NHWC 之间的权衡。

© 2025 ApX Machine Learning用心打造