趋近智
对高维概率分布进行建模,需要理解不同变量之间是如何相互影响的。在处理图像或时间序列时,一个特征的数值通常很大程度上取决于前面特征的数值。自回归 (autoregressive)生成模型通过将数据生成过程视为一系列连续的步骤来捕捉这种依赖关系。
自回归模型的基础是概率的乘法法则。任意 维随机变量 的联合概率分布都可以分解为条件概率的乘积。在数学上,这可以表示为:
在这个公式中,第一个变量 的概率是无条件建模的。第二个变量 的概率以 为条件。第三个变量 同时以 和 为条件。这种模式一直持续到最后一个变量 以之前的所有变量为条件。这种序列依赖性正是自回归模型名称的由来。
让我们直观地展示这种序列依赖结构。
自回归依赖结构,其中每个变量都作为序列中后续所有变量的条件。
为了在归一化 (normalization)流中使用这种自回归结构,我们必须将其构建为一个可逆变换。令 为从简单基础分布(如各向同性高斯分布)中提取的隐变量,令 为目标数据变量。自回归变换通过将每个输出维度 定义为对应隐维度 以及之前所有已生成数据维度 的函数,从而将 映射到 。
这里, 是一个可逆映射, 代表该映射的参数 (parameter)。这些参数由一个仅观察之前维度 的神经网络 (neural network)计算得出。
这种形式带来了一个非常有益的数学性质。当我们计算该变换的雅可比矩阵(Jacobian matrix)时, 对 (其中 )的导数始终为零。由此产生的雅可比矩阵是一个下三角矩阵。
让我们看一个三维示例来了解这个雅可比矩阵的结构:
由于雅可比矩阵是下三角的,其行列式就是主对角线各项的乘积。
这一性质解决了归一化流中的一个主要计算瓶颈。计算一个普通 矩阵的行列式需要 次运算。通过采用自回归结构,行列式的计算被简化为 次运算。这种简化使得将归一化流扩展到具有数千或数百万维度的模型成为可能。
虽然自回归模型的数学原理为扩展密度估计提供了清晰的路径,但高效地实现它们需要周密的架构设计。如果我们使用标准的循环回路顺序计算每个 ,采样过程会变得很慢。生成完整样本所需的时间随维度数量线性增长。
为了使这些模型在机器学习 (machine learning)工作流中具有实用性,我们使用深度神经网络对条件分布进行参数化。通过使用遮盖(masking)等特定的网络设计,我们可以在训练期间通过单次前向传播同时计算所有维度的参数。这使我们能够非常快速地评估训练数据的精确对数似然。接下来的章节将解释如何有效地实现这些遮盖神经网络架构。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•