趋近智
所有课程
5.1 目标硬件指令选择
5.2 向量/矩阵单元的寄存器分配
5.3 GPU 代码生成:CUDA 和 ROCm 后端
5.4 为张量核心和矩阵单元生成代码
5.5 针对AI加速器(TPU、NPU)的代码生成
5.6 用于异构执行的中间格式 (SPIR-V)
5.7 供应商专用编译器工具链和库 (cuDNN, MIOpen)
5.8 动手实践:分析生成的GPU核函数
© 2025 ApX Machine Learning