仿射耦合层

自回归 (autoregressive)模型按顺序处理数据。这导致了计算瓶颈。虽然它们可以高效地评估概率密度，但生成新样本需要等待前面的元素计算完成。仿射耦合层解决了这种结构限制。通过对输入进行分割，这些层能够实现前向和反向的并行化操作，使其在密度估计和数据生成方面效率极高。

仿射耦合层将输入张量 $x$ 分为两个部分： $x_1$ 和 $x_2$ 。第一部分 $x_1$ 完全不加修改地通过该层。然后，该层使用这些未改变的数据来确定如何对第二部分 $x_2$ 进行缩放和平移。

设 $D$ 为输入数据 $x$ 的维度，设 $d$ 为分割发生的索引，满足 $1 \le d < D$ 。分割产生 $x_1 = x_{1:d}$ 和 $x_2 = x_{d+1:D}$ 。产生输出 $y$ 的前向变换使用以下操作：

$y_1 = x_1$

$y_2 = x_2 \odot \exp(s(x_1)) + t(x_1)$

这里， $\odot$ 表示逐元素相乘。函数 $s$ 和 $t$ 表示缩放和平移操作。这些函数通常由神经网络 (neural network)实现。缩放网络 $s(x_1)$ 的输出经过指数运算，以确保缩放因子保持严格为正，这是数值稳定性和可逆性的要求。

仿射耦合层在前向传递过程中的数据流。

当你反转变换时，这种架构的实际优势就变得显而易见。由于 $y_1$ 与 $x_1$ 相同，你可以立即使用 $y_1$ 来重新计算完全相同的缩放和平移因子。你不需要求神经网络 $s$ 和 $t$ 的逆来恢复原始输入。

$x_1 = y_1$

$x_2 = (y_2 - t(y_1)) \odot \exp(-s(y_1))$

这一数学特性非常有利。它允许神经网络 $s$ 和 $t$ 根据需要设计得尽可能复杂。你可以集成深层残差网络、注意力机制 (attention mechanism)或稠密卷积层。只要这些网络接受维度为 $d$ 的输入并产生维度为 $D-d$ 的输出，整个仿射耦合层在分析上就保持完美可逆。

在规范化流中，计算准确的概率密度需要计算雅可比矩阵（Jacobian matrix）的行列式。对于仿射耦合层，雅可比矩阵 $J$ 表示输出相对于输入的偏导数。

$J = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} \end{bmatrix}$

我们可以根据前向传递方程来分析这四个具体的块。

左上角的块是 $y_1$ 对 $x_1$ 的导数。由于 $y_1 = x_1$ ，其结果为一个单位矩阵 $I$ 。

右上角的块是 $y_1$ 对 $x_2$ 的导数。因为 $y_1$ 完全不依赖于 $x_2$ ，所以其结果为一个零矩阵 $0$ 。

左下角的块是 $y_2$ 对 $x_1$ 的导数。这包含了神经网络 $s$ 和 $t$ 的复杂导数。为了计算行列式，我们将这个稠密矩阵块简单地记为 $A$ 。

右下角的块是 $y_2$ 对 $x_2$ 的导数。由于 $y_2 = x_2 \odot \exp(s(x_1)) + t(x_1)$ ，对 $x_2$ 的导数分离出了缩放因子。这将产生一个包含缩放输出指数值的对角矩阵，记为 $\text{diag}(\exp(s(x_1)))$ 。

代入这些评估后的块，就得到了雅可比矩阵的完整结构。

$J = \begin{bmatrix} I & 0 \\ A & \text{diag}(\exp(s(x_1))) \end{bmatrix}$

由于右上角的块严格为零，雅可比矩阵构成了一个块下三角矩阵。线性代数的一个基本规则规定，任何三角矩阵的行列式仅仅是其主对角线上元素的乘积。块 $A$ 中包含的复杂偏导数不会影响行列式。

为了计算变量替换公式所需的雅可比行列式对数，我们对这些对角线元素的自然对数求和。

$\log |\det(J)| = \sum_{j=1}^{D-d} s(x_1)_j$

这种运算在计算上非常简单。你只需要对缩放网络的输出向量 (vector)求和。不需要昂贵的矩阵分解或迭代近似，这使得密度估计变得极快。

单个仿射耦合层总是保持 $x_1$ 不变。如果一个模型仅由相同的耦合层组成，它将永远无法学习如何变换数据分布的第一部分。为了构建有效的生成模型，必须堆叠多个仿射耦合层并交替分割策略。

在第一层中，索引从 1 到 $d$ 的元素可能充当 $x_1$ 。在随后的层中，索引从 $d+1$ 到 $D$ 的元素将充当 $x_1$ 。这种交替模式确保了输入向量的所有维度最终都能得到变换。为这种交替实现特定的掩码策略，是现代架构扩展到高维图像数据的方式。

这部分内容有帮助吗？