所有课程

章节 1: PyTorch 内部机制与自动求导

张量实现细节

理解计算图

Autograd 引擎机制

自定义 Autograd 函数：前向与反向

高阶梯度计算

梯度查看与图可视化

内存管理考量

实践操作：构建自定义自动求导函数

章节 2: 进阶神经网络结构

从组件构建Transformer模型

高级注意力机制

使用 PyTorch Geometric 的图神经网络

用于生成建模的归一化流

神经常微分方程

元学习算法

实践：实现自定义GNN层

章节 3: 优化技术与训练策略

高级优化器概述

高级学习率调度

正则化方法

梯度裁剪与累积

使用 torch.cuda.amp 进行混合精度训练

处理大型数据集的策略

自动化超参数调整

动手实战：实现混合精度训练

章节 4: 模型部署和性能优化

TorchScript 基础: 追踪与脚本化

模型量化技术

模型剪枝策略

PyTorch Profiler 性能分析

通过外部库优化算子

模型导出为 ONNX 格式

使用 TorchServe 提供模型服务

实践：模型性能分析与量化

章节 5: 分布式训练与并行

分布式计算基本原理

使用 DistributedDataParallel (DDP) 进行数据并行

张量模型并行

流水线并行实现

全分片数据并行（FSDP）

使用 torch.distributed 通信原语

设置分布式环境

实践操作：设置DDP训练脚本

章节 6: 自定义扩展与互操作性

构建定制C++扩展

构建自定义 CUDA 扩展

使用 ATen 库

PyTorch 与 NumPy 的连接

使用自定义模块扩展 torch.nn

扩展 torch.optim，使用自定义优化器

外部函数接口 (FFI)

实践：构建一个简单的 CUDA 扩展

高级注意力机制

这部分内容有帮助吗？

参考文献

Longformer: The Long-Document Transformer, Iz Beltagy, Matthew E. Peters, Arman Cohan, 2020 arXiv preprint arXiv:2004.05150 DOI: 10.48550/arXiv.2004.05150 - 介绍了一种通过结合局部和全局注意力模式，使复杂度与序列长度呈线性关系的注意力机制。
BigBird: A Self-Attention Mechanism for Long Context Transformers, Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed, 2020 Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2007.14062 - 提出了一种稀疏注意力机制，实现了线性复杂度，并能近似完整的注意力。
Rethinking Attention with Performers, Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller, 2020 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2009.14794 - 提出了 Performer 模型，该模型使用正交随机特征来近似 Softmax 注意力，实现了线性复杂度。
Linformer: Self-Attention with Linear Complexity, Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma, 2020 arXiv preprint arXiv:2006.04768 DOI: 10.48550/arXiv.2006.04768 - 描述了一种通过将键和值矩阵投影到较低维度来实现线性复杂度的注意力机制。

© 2025 ApX Machine Learning用心打造