堆叠变换

变量代换定理提供了一种数学机制，可以将简单的基础概率分布映射到更复杂的分布，同时精确跟踪概率密度的变化。然而，单一的参数 (parameter)化数学函数（如仿射缩放或平移）对分布形状的修改能力有限。单层结构通常不足以捕捉高度不规则且多峰的数据分布。

为了获得必要的灵活性，我们利用函数复合这一数学特性。如果我们有两个可逆函数 $f_1$ 和 $f_2$ ，它们的复合函数 $f(z) = f_2(f_1(z))$ 也是严格可逆的。该复合函数的逆函数是各个分量逆函数的反向复合，即 $f^{-1}(x) = f_1^{-1}(f_2^{-1}(x))$ 。

这一特性可以扩展到任意数量的函数。通过将多个参数化变换按顺序链接，我们构建出了正规化流的架构。

设 $z_0$ 是从已知基础分布 $p_0(z_0)$ 中采样的随机变量。我们应用一系列 $K$ 个可逆变换 $f_1, f_2, \dots, f_K$ 。序列中的每个中间变量由前一层的输出来定义：

$z_k = f_k(z_{k-1})$

最终输出是生成的样本 $x = z_K$ 。从基础分布到目标分布的整体映射定义为：

$x = f_K \circ f_{K-1} \circ \dots \circ f_1(z_0)$

通过堆叠可逆变换，将基础分布映射为复杂目标分布的变量序列。

跟踪堆叠层的密度变化

当我们通过堆叠函数来扭曲样本空间时，必须计算整个序列的总体体积变化，以保持精确的密度跟踪。微积分中的链式法则指出，复合函数的雅可比矩阵是各分量函数雅可比矩阵的乘积。此外，线性代数的一个特性是，矩阵乘积的行列式等于各矩阵行列式的乘积。

对于我们的正规化流，从 $z_0$ 到 $z_K$ 的完整变换的雅可比行列式，是在每个中间步骤 $k$ 计算的雅可比行列式的乘积：

$\det \left( \frac{\partial z_K}{\partial z_0} \right) = \prod_{k=1}^K \det \left( \frac{\partial z_k}{\partial z_{k-1}} \right)$

在实践中，将许多小的行列式值相乘经常会导致数值下溢，在使用单精度浮点运算训练的深度神经网络 (neural network)中尤其如此。为了避免这种情况，像 PyTorch 这样的机器学习 (machine learning)框架在对数空间中优化函数。对乘积取对数会将其转化为求和，这在数值上更稳定。

将行列式的乘积代入变量代换公式，可以得到模型下数据点的精确对数似然：

$\log p_K(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left| \det \left( \frac{\partial z_k}{\partial z_{k-1}} \right) \right|$

这个特定的方程规定了训练和评估任何正规化流的运行机制。为了计算给定数据点 $x$ 的精确概率密度，我们必须让它反向通过所有 $K$ 个逆变换以到达 $z_0$ 。在这个反向传递过程中，我们累加每一步雅可比行列式的对数值，并从基础分布评估的 $z_0$ 对数概率中减去该总和。

计算约束

堆叠变换使我们能够构建表达能力极强的生成模型，但也对单个函数 $f_k$ 的设计提出了严格的计算要求。如果一个流架构包含 50 个堆叠层，评估单个数据点就需要 50 次函数评估和 50 次雅可比行列式计算。

为了使堆叠模型能够高效地扩展到高维数据，每一层必须满足两个严格条件。首先，函数必须能够容易地进行解析求逆。其次，雅可比行列式的计算代价必须很低。

在标准数学中，计算 $N \times N$ 矩阵的行列式需要 $O(N^3)$ 次运算。对于处理高分辨率图像或音频信号等高维数据，这种立方时间复杂度太慢了。因此，现代流架构刻意将 $f_k$ 设计为产生三角雅可比矩阵。三角矩阵的行列式只需通过其对角线元素相乘即可算出，这将行列式运算的计算成本从 $O(N^3)$ 降低到 $O(N)$ 。

通过组建多个强制执行这些特定约束的参数 (parameter)化层，我们构建出的神经网络 (neural network)既能进行精确的密度评估，又能进行快速的并行采样。接下来的部分将详细介绍实现这种三角结构的具体层设计。

这部分内容有帮助吗？