趋近智
首页
博客
课程
大模型
中
所有课程
针对机器学习任务的高级编译器与运行时优化
章节 1: 开篇:机器学习执行栈与挑战
机器学习模型部署差距
机器学习编译器与运行时栈概览
机器学习推理中的性能瓶颈
ML加速硬件
专门优化的必要性
章节 2: 机器学习的高阶中间表示
传统编译器IR的局限性
多级中间表示的原理
MLIR:方言和操作
表示高层ML图(例如TF, TOSA)
MLIR 中的下沉路径
可扩展性与自定义方言
动手实践:分析 MLIR 表示
章节 3: 高级图级别优化
图重写系统
激进的算子融合技术
内存感知布局转换
高级代数简化
静态内存规划与分配
图中的控制流处理
实践操作:实现组合操作遍
章节 4: 张量级优化与多面体建模
将张量计算表示为循环嵌套
多面体建模简介
迭代域、访问函数和依赖
调度变换 (倾斜变换, 分块)
多面体调度下的代码生成
自动向量化技术 (SIMD)
内存层级优化:分块和预取
动手实践:使用多面体工具优化循环
章节 5: 异构硬件的代码生成
目标硬件指令选择
向量/矩阵单元的寄存器分配
GPU 代码生成:CUDA 和 ROCm 后端
为张量核心和矩阵单元生成代码
针对AI加速器(TPU、NPU)的代码生成
用于异构执行的中间格式 (SPIR-V)
供应商专用编译器工具链和库 (cuDNN, MIOpen)
动手实践:分析生成的GPU核函数
章节 6: 高级机器学习运行时系统
运行时架构概览
处理动态形状和大小
高效内存管理策略
异步执行与调度
异构系统调度
整合定制算子与核函数
机器学习框架的互操作性
动手实践:实现一个简单的分配器
章节 7: 面向机器学习的即时 (JIT) 编译技术
ML中JIT编译的动因
追踪与脚本方法
JIT系统中的中间表示
运行时专门化与多态性
即时编译器(JIT)中的配置文件引导优化(PGO)
自适应与多层编译
案例分析:TensorFlow XLA
案例研究:PyTorch JIT (TorchScript)
实践操作:分析JIT编译代码
章节 8: 量化与低精度优化
模型量化基础 (INT8, FP8)
在IR中表示量化操作
量化感知训练 (QAT) 的编译器处理过程
训练后量化 (PTQ) 编译流程
生成低精度核函数
混合精度计算优化
量化比例和零点的处理
动手实践:量化操作的降级处理
章节 9: 性能分析工具
编译后的机器学习代码性能分析中的挑战
系统级性能分析 (CPU、GPU、互连)
CPU 性能分析 (VTune, perf)
GPU核心性能分析 (Nsight Compute, ROCprof)
关联框架操作与编译内核
内存访问模式分析
理解编译器优化报告
动手实践:分析优化模型的性能
静态内存规划与分配
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
ML图的静态内存规划