所有课程

章节 1: PyTorch 内部机制与自动求导

张量实现细节

理解计算图

Autograd 引擎机制

自定义 Autograd 函数：前向与反向

高阶梯度计算

梯度查看与图可视化

内存管理考量

实践操作：构建自定义自动求导函数

章节 2: 进阶神经网络结构

从组件构建Transformer模型

高级注意力机制

使用 PyTorch Geometric 的图神经网络

用于生成建模的归一化流

神经常微分方程

元学习算法

实践：实现自定义GNN层

章节 3: 优化技术与训练策略

高级优化器概述

高级学习率调度

正则化方法

梯度裁剪与累积

使用 torch.cuda.amp 进行混合精度训练

处理大型数据集的策略

自动化超参数调整

动手实战：实现混合精度训练

章节 4: 模型部署和性能优化

TorchScript 基础: 追踪与脚本化

模型量化技术

模型剪枝策略

PyTorch Profiler 性能分析

通过外部库优化算子

模型导出为 ONNX 格式

使用 TorchServe 提供模型服务

实践：模型性能分析与量化

章节 5: 分布式训练与并行

分布式计算基本原理

使用 DistributedDataParallel (DDP) 进行数据并行

张量模型并行

流水线并行实现

全分片数据并行（FSDP）

使用 torch.distributed 通信原语

设置分布式环境

实践操作：设置DDP训练脚本

章节 6: 自定义扩展与互操作性

构建定制C++扩展

构建自定义 CUDA 扩展

使用 ATen 库

PyTorch 与 NumPy 的连接

使用自定义模块扩展 torch.nn

扩展 torch.optim，使用自定义优化器

外部函数接口 (FFI)

实践：构建一个简单的 CUDA 扩展

模型量化技术

这部分内容有帮助吗？

参考文献

PyTorch Model Quantization, PyTorch Authors, 2019 - PyTorch 中实现量化技术的官方指南，详细介绍了动态、静态和 QAT 工作流程。
Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference, Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, Dmitry Kalenichenko, 2018 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE) DOI: 10.1109/CVPR.2018.00892 - 介绍了训练后量化的核心概念，包括仿射量化、尺度和零点参数。

© 2025 ApX Machine Learning用心打造