趋近智
掩码自回归 (autoregressive)流(Masked Autoregressive Flow, MAF)架构利用用于分布估计的掩码自编码器(MADE)模块来构建完整的归一化 (normalization)流。虽然 MADE 提供了一种通过单次网络前向传播计算自回归条件概率的高效方法,但单个 MADE 层通常不足以对复杂的分布进行建模。MAF 通过堆叠多个自回归变换解决了这个问题,将每个 MADE 模块视为大型模型中的一个可逆层。
在掩码自回归流中,变换是通过位置和缩放参数 (parameter)定义的。对于给定的数据点 ,我们将其映射到基分布中的隐变量 。用于密度估计的前向变换定义为:
这里, 表示均值, 表示对数缩放比例。在自回归模型中, 和 都仅是前序数据维度 的函数。
由于参数 和 严格依赖于观测数据 ,且在向传播过程中 是完全已知的,因此我们可以同时计算所有的 。通过 MADE 网络进行单次前向传播即可一次性得出所有的 和 参数。这种并行执行方式使得评估精确概率密度的速度非常快。
计算概率密度需要该变换的雅可比矩阵行列式。由于每个 仅取决于 ,因此雅可比矩阵是下三角矩阵。对角线元素即为 对 的导数:
下三角矩阵的行列式是其对角线元素的乘积。因此,雅可比对数行列式的计算效率极高:
这种 的操作相比于稠密雅可比矩阵带来的 成本有了显著改进。这使得 MAF 能够有效地扩展到高维数据集。
掩码自回归流中密度估计与采样操作的执行流程对比。
尽管 MAF 在密度估计方面经过了高度优化,但在采样阶段却面临明显的局限。为了生成新数据,我们必须计算反向变换。我们首先从基分布(通常是标准高斯分布)中采样 ,然后解出 :
参数 和 由 MADE 网络生成,这需要前序数据维度 作为输入。为了生成 ,我们需要初始参数 和 ,它们不依赖于任何前序变量。然而,为了生成 ,我们必须先计算出 ,将其反馈到 MADE 网络以获得 和 ,然后再计算 。
这形成了一个顺序依赖循环。为了生成一个 维样本,我们必须让数据通过 MADE 网络 次。对于一张 1024 维的图像,这需要 1024 次顺序网络传播,导致采样操作非常缓慢。
单个 MAF 层根据变量的特定顺序应用自回归变换。例如, 可能依赖于 到 ,但 不依赖于任何变量。如果我们保持这个顺序不变, 将始终只是一个直接从 建模的简单边缘分布,这限制了它的表达能力。
为了构建完整的 MAF 模型,我们会堆叠多个自回归层,并在每层之间置换变量的顺序。反转变量顺序是一种常见的策略。如果第一层使用标准顺序 ,第二层则使用 。这确保了在第一层中具有简单条件分布的变量,在后续层中能够获得复杂的条件分布。通过堆叠多个交替变量顺序的层,模型可以捕捉到所有维度之间极其复杂的依赖关系。
由于前向传播只需一步即可完成,因此 MAF 是极大似然估计的理想选择。您可以非常高效地计算训练数据的精确对数似然,从而实现快速且稳定的训练。其代价是顺序执行且计算成本高昂的采样过程。如果您的主要目标是快速生成高质量的合成数据,则需要一个优化了反向传播 (backpropagation)的模型。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•