趋近智

所有课程

JAX 高级编程：性能、优化与规模化

章节 1: 高级 JAX 变换与控制流

核心转换回顾：jit, grad, vmap

精通 lax.scan 处理序列操作

使用 lax.cond 进行条件执行

使用 lax.while_loop 进行循环

结合控制流与变换

高级掩码技术

了解闭包和JAX暂存

实践：实现复杂的循环逻辑

章节 2: JAX 代码的性能优化

在 CPU、GPU 和 TPU 上分析 JAX 代码

理解 JAX 计算图 (jaxpr)

XLA 编译的作用

内存布局及其对性能的影响

避免重复编译

算子合并与操作优化

实践：优化数值计算

章节 3: JAX 分布式计算

并行处理原理介绍

JAX 中的设备管理

使用 pmap 进行单一程序多数据 (SPMD) 运算

使用 pmap 实现数据并行

集合通信原语 (psum, pmean 等)

pmap 中轴名称的处理

嵌套 pmap 与进阶分区

多主机编程简介

实践：分布式数据并行训练

章节 4: 进阶自动微分方法

前向和反向模式自动微分回顾

雅可比向量积 (JVPs) 与 jax.jvp

向量-雅可比积 (VJPs) 与 jax.vjp

计算完整的雅可比矩阵和海森矩阵

使用 jax.custom_vjp 的自定义微分规则

jax.custom_jvp 自定义求导规则

通过控制流原语求导

处理不可微分函数

实践：实现自定义梯度

章节 5: 互操作性与自定义操作

JAX 与 NumPy 的集成

使用 DLPack 实现零拷贝数据共享

使用 jax.experimental.host_callback 调用外部 CPU/GPU 代码

使用 jax.pure_callback 进行无副作用调用

JAX 原语简介

定义自定义原语

实现抽象求值规则

为后端（CPU/GPU/TPU）实现转换规则

制定自定义原语的求导规则

实践：整合 C++ 函数

章节 6: 大规模模型训练方法

大型模型训练中的挑战概述

JAX 生态系统库（Flax, Haiku）简介

模型参数和状态的处理

将 pmap 与训练框架结合使用

梯度检查点（再物化）

混合精度训练

模型并行策略

大规模优化算法

实践：实现梯度检查点

JAX中的进阶自动微分

章节 4: 进阶自动微分方法

自动微分是JAX的核心组成部分，它使得机器学习 (machine learning)模型能够进行基于梯度的优化。虽然jax.grad提供了获取梯度的便捷接口，但了解并控制其内部运作将为复杂任务带来更大的灵活性和更高的效率。

本章将基于jax.grad的初步知识进行拓展。你将学习自动微分的两种基本模式：正向模式（雅可比向量 (vector)积，JVP）和反向模式（向量雅可比积，VJP）。我们将介绍如何直接使用jax.jvp和jax.vjp计算它们，这些构成了jax.grad及其他变换的构建块。

主要内容包括：

计算通过组合微分变换得到的高阶导数。
高效计算完整雅可比矩阵和海森矩阵的方法。
使用jax.custom_vjp和jax.custom_jvp为函数定义自定义微分规则，这可用于提高数值稳定性、优化性能或处理非JAX代码。
理解自动微分在lax.scan、lax.cond和lax.while_loop等控制流原语中如何运作。
处理不可微分函数或需要明确停止梯度传播的函数的方法，例如使用jax.lax.stop_gradient。

在本章结束时，你将对JAX的自动微分系统有更全面的理解，并掌握在进阶场景中有效应用它的工具。

课程章节

4.1 前向和反向模式自动微分回顾
4.2 雅可比向量积 (JVPs) 与 jax.jvp
4.3 向量-雅可比积 (VJPs) 与 jax.vjp
4.4 高阶导数
4.5 计算完整的雅可比矩阵和海森矩阵
4.6 使用 jax.custom_vjp 的自定义微分规则
4.7 jax.custom_jvp 自定义求导规则
4.8 通过控制流原语求导
4.9 处理不可微分函数
4.10 实践：实现自定义梯度

© 2026 ApX Machine Learning