所有课程

章节 1: PyTorch 内部机制与自动求导

张量实现细节

理解计算图

Autograd 引擎机制

自定义 Autograd 函数：前向与反向

高阶梯度计算

梯度查看与图可视化

内存管理考量

实践操作：构建自定义自动求导函数

章节 2: 进阶神经网络结构

从组件构建Transformer模型

高级注意力机制

使用 PyTorch Geometric 的图神经网络

用于生成建模的归一化流

神经常微分方程

元学习算法

实践：实现自定义GNN层

章节 3: 优化技术与训练策略

高级优化器概述

高级学习率调度

正则化方法

梯度裁剪与累积

使用 torch.cuda.amp 进行混合精度训练

处理大型数据集的策略

自动化超参数调整

动手实战：实现混合精度训练

章节 4: 模型部署和性能优化

TorchScript 基础: 追踪与脚本化

模型量化技术

模型剪枝策略

PyTorch Profiler 性能分析

通过外部库优化算子

模型导出为 ONNX 格式

使用 TorchServe 提供模型服务

实践：模型性能分析与量化

章节 5: 分布式训练与并行

分布式计算基本原理

使用 DistributedDataParallel (DDP) 进行数据并行

张量模型并行

流水线并行实现

全分片数据并行（FSDP）

使用 torch.distributed 通信原语

设置分布式环境

实践操作：设置DDP训练脚本

章节 6: 自定义扩展与互操作性

构建定制C++扩展

构建自定义 CUDA 扩展

使用 ATen 库

PyTorch 与 NumPy 的连接

使用自定义模块扩展 torch.nn

扩展 torch.optim，使用自定义优化器

外部函数接口 (FFI)

实践：构建一个简单的 CUDA 扩展

流水线并行实现

这部分内容有帮助吗？

参考文献

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Yanping Huang, Youlong Cheng, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Thang Luong, Yonghui Wu, Zhifeng Chen, 2019 Advances in Neural Information Processing Systems (NeurIPS) (NeurIPS Foundation) DOI: 10.48550/arXiv.1905.01329 - 介绍了用于流水线并行的GPipe算法，详细说明了如何使用微批处理来减少空闲时间。
Distributed communication package - torch.distributed, PyTorch Contributors, 2025 (PyTorch) - PyTorch分布式通信原语的官方文档，是手动实现流水线并行的基础。
DeepSpeed: Large-Scale Distributed Training with Pipeline Parallelism, Samyam Rajbhandari, Cong Li, Zhun Liu, Olatunji Ruwase, Justin K. Romberg, Yuxiong He, 2020 arXiv preprint arXiv:2006.02708 DOI: 10.48550/arXiv.2006.02708 - 展示了DeepSpeed的流水线并行功能，包括用于高效训练大型模型的各种调度策略。

© 2025 ApX Machine Learning用心打造