趋近智
变量代换定理提供了一种数学机制,可以将简单的基础概率分布映射到更复杂的分布,同时精确跟踪概率密度的变化。然而,单一的参数 (parameter)化数学函数(如仿射缩放或平移)对分布形状的修改能力有限。单层结构通常不足以捕捉高度不规则且多峰的数据分布。
为了获得必要的灵活性,我们利用函数复合这一数学特性。如果我们有两个可逆函数 和 ,它们的复合函数 也是严格可逆的。该复合函数的逆函数是各个分量逆函数的反向复合,即 。
这一特性可以扩展到任意数量的函数。通过将多个参数化变换按顺序链接,我们构建出了正规化流的架构。
设 是从已知基础分布 中采样的随机变量。我们应用一系列 个可逆变换 。序列中的每个中间变量由前一层的输出来定义:
最终输出是生成的样本 。从基础分布到目标分布的整体映射定义为:
通过堆叠可逆变换,将基础分布映射为复杂目标分布的变量序列。
当我们通过堆叠函数来扭曲样本空间时,必须计算整个序列的总体体积变化,以保持精确的密度跟踪。微积分中的链式法则指出,复合函数的雅可比矩阵是各分量函数雅可比矩阵的乘积。此外,线性代数的一个特性是,矩阵乘积的行列式等于各矩阵行列式的乘积。
对于我们的正规化流,从 到 的完整变换的雅可比行列式,是在每个中间步骤 计算的雅可比行列式的乘积:
在实践中,将许多小的行列式值相乘经常会导致数值下溢,在使用单精度浮点运算训练的深度神经网络 (neural network)中尤其如此。为了避免这种情况,像 PyTorch 这样的机器学习 (machine learning)框架在对数空间中优化函数。对乘积取对数会将其转化为求和,这在数值上更稳定。
将行列式的乘积代入变量代换公式,可以得到模型下数据点的精确对数似然:
这个特定的方程规定了训练和评估任何正规化流的运行机制。为了计算给定数据点 的精确概率密度,我们必须让它反向通过所有 个逆变换以到达 。在这个反向传递过程中,我们累加每一步雅可比行列式的对数值,并从基础分布评估的 对数概率中减去该总和。
堆叠变换使我们能够构建表达能力极强的生成模型,但也对单个函数 的设计提出了严格的计算要求。如果一个流架构包含 50 个堆叠层,评估单个数据点就需要 50 次函数评估和 50 次雅可比行列式计算。
为了使堆叠模型能够高效地扩展到高维数据,每一层必须满足两个严格条件。首先,函数必须能够容易地进行解析求逆。其次,雅可比行列式的计算代价必须很低。
在标准数学中,计算 矩阵的行列式需要 次运算。对于处理高分辨率图像或音频信号等高维数据,这种立方时间复杂度太慢了。因此,现代流架构刻意将 设计为产生三角雅可比矩阵。三角矩阵的行列式只需通过其对角线元素相乘即可算出,这将行列式运算的计算成本从 降低到 。
通过组建多个强制执行这些特定约束的参数 (parameter)化层,我们构建出的神经网络 (neural network)既能进行精确的密度评估,又能进行快速的并行采样。接下来的部分将详细介绍实现这种三角结构的具体层设计。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•