所有课程

章节 1: PyTorch 内部机制与自动求导

张量实现细节

理解计算图

Autograd 引擎机制

自定义 Autograd 函数：前向与反向

高阶梯度计算

梯度查看与图可视化

内存管理考量

实践操作：构建自定义自动求导函数

章节 2: 进阶神经网络结构

从组件构建Transformer模型

高级注意力机制

使用 PyTorch Geometric 的图神经网络

用于生成建模的归一化流

神经常微分方程

元学习算法

实践：实现自定义GNN层

章节 3: 优化技术与训练策略

高级优化器概述

高级学习率调度

正则化方法

梯度裁剪与累积

使用 torch.cuda.amp 进行混合精度训练

处理大型数据集的策略

自动化超参数调整

动手实战：实现混合精度训练

章节 4: 模型部署和性能优化

TorchScript 基础: 追踪与脚本化

模型量化技术

模型剪枝策略

PyTorch Profiler 性能分析

通过外部库优化算子

模型导出为 ONNX 格式

使用 TorchServe 提供模型服务

实践：模型性能分析与量化

章节 5: 分布式训练与并行

分布式计算基本原理

使用 DistributedDataParallel (DDP) 进行数据并行

张量模型并行

流水线并行实现

全分片数据并行（FSDP）

使用 torch.distributed 通信原语

设置分布式环境

实践操作：设置DDP训练脚本

章节 6: 自定义扩展与互操作性

构建定制C++扩展

构建自定义 CUDA 扩展

使用 ATen 库

PyTorch 与 NumPy 的连接

使用自定义模块扩展 torch.nn

扩展 torch.optim，使用自定义优化器

外部函数接口 (FFI)

实践：构建一个简单的 CUDA 扩展

模型剪枝策略

这部分内容有帮助吗？

参考文献

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, Song Han, Huizi Mao, and William J. Dally, 2016 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1510.00149 - 提出了一种广泛采用的模型压缩三阶段流程，首先通过基于幅度的剪枝来移除冗余连接。
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Subnetworks, Jonathan Frankle and Michael Carbin, 2019 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1803.03635 - 提出密集神经网络包含稀疏子网络，这些子网络在从头开始训练时可以达到类似的准确性。
Learning Efficient Convolutional Networks through Network Slimming, Zhuang Liu, Jianguo Li, Zhiqiang Shen, Gao Huang, Shoumeng Yan, Changshui Zhang, 2017 IEEE International Conference on Computer Vision (ICCV) DOI: 10.48550/arXiv.1708.06519 - 一种结构化剪枝方法，通过对缩放因子引入稀疏性惩罚来剪枝通道。
torch.nn.utils.prune documentation, PyTorch Developers, 2024 (PyTorch) - PyTorch官方文档，介绍用于对神经网络层应用各种剪枝技术的模块。

© 2025 ApX Machine Learning用心打造