标准变分自编码器对先验 p ( z ) p(z) p ( z ) 和变分后验 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 都依赖相对简单的分布假设,通常是高斯分布。虽然这种选择确保了易处理性,但它会大幅限制模型的表达能力。复杂数据的真实后验 p ( z ∣ x ) p(z|x) p ( z ∣ x ) 可能表现出多峰性或隐变量维度之间复杂的关联,远比分解高斯分布所能捕捉的要丰富。同样地,强制聚合后验 q ( z ) = ∫ q ϕ ( z ∣ x ) p d a t a ( x ) d x q(z) = \int q_\phi(z|x) p_{data}(x) dx q ( z ) = ∫ q ϕ ( z ∣ x ) p d a t a ( x ) d x 去匹配一个简单、固定的先验 p ( z ) p(z) p ( z ) 会限制模型学习表示的能力,并可能导致后验坍塌等问题。归一化 (normalization)流(NF)提供了一种有效且原则性的方法,用于构建更灵活、可学习的概率分布,使得 VAE 能够克服这些局限。
归一化 (normalization)流的要旨
其核心是,归一化流通过应用 K K K 个可逆且可微分的变换序列 f 1 , … , f K f_1, \dots, f_K f 1 , … , f K ,将一个简单的初始概率分布 p 0 ( z 0 ) p_0(z_0) p 0 ( z 0 ) (通常称为基分布,通常是标准高斯分布 N ( 0 , I ) \mathcal{N}(0, I) N ( 0 , I ) )变成一个更复杂的目标分布 p K ( z K ) p_K(z_K) p K ( z K ) 。
设想从 p 0 ( z 0 ) p_0(z_0) p 0 ( z 0 ) 抽取一个样本 z 0 z_0 z 0 。该样本随后通过序列进行变换:
z 1 = f 1 ( z 0 ) z_1 = f_1(z_0) z 1 = f 1 ( z 0 )
z 2 = f 2 ( z 1 ) z_2 = f_2(z_1) z 2 = f 2 ( z 1 )
...
z K = f K ( z K − 1 ) z_K = f_K(z_{K-1}) z K = f K ( z K − 1 )
值得注意的是,我们可以精确计算最终变换变量 z K z_K z K 的概率密度。这是通过概率论中的变量变换公式实现的。如果我们有一个变换 z ′ = f ( z ) z' = f(z) z ′ = f ( z ) ,则 z ′ z' z ′ 的密度与 z z z 的密度之间的关系为 p Z ′ ( z ′ ) = p Z ( f − 1 ( z ′ ) ) ∣ det ( ∂ f − 1 ( z ′ ) ∂ z ′ ) ∣ p_{Z'}(z') = p_Z(f^{-1}(z')) \left| \det \left( \frac{\partial f^{-1}(z')}{\partial z'} \right) \right| p Z ′ ( z ′ ) = p Z ( f − 1 ( z ′ )) det ( ∂ z ′ ∂ f − 1 ( z ′ ) ) 。对于一系列前向变换 z k = f k ( z k − 1 ) z_k = f_k(z_{k-1}) z k = f k ( z k − 1 ) ,通常更方便将最终输出 z K z_K z K 的对数密度表示为初始 z 0 z_0 z 0 的形式:
log p K ( z K ) = log p 0 ( z 0 ) − ∑ k = 1 K log ∣ det J f k ( z k − 1 ) ∣ \log p_K(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left| \det J_{f_k}(z_{k-1}) \right| log p K ( z K ) = log p 0 ( z 0 ) − k = 1 ∑ K log ∣ det J f k ( z k − 1 ) ∣
这里,J f k ( z k − 1 ) J_{f_k}(z_{k-1}) J f k ( z k − 1 ) 表示变换 f k f_k f k 的雅可比矩阵(即所有一阶偏导数的矩阵),在输入 z k − 1 z_{k-1} z k − 1 处计算得到。表达式 ∣ det J f k ( z k − 1 ) ∣ \left| \det J_{f_k}(z_{k-1}) \right| ∣ det J f k ( z k − 1 ) ∣ 描述了变换 f k f_k f k 如何在局部拉伸或压缩空间。
为了使整个过程在计算上可行且有效,流中的每个变换 f k f_k f k 必须满足三个条件:
它必须是可逆的 ,这意味着我们可以通过 f k − 1 f_k^{-1} f k − 1 从 z k z_k z k 恢复 z k − 1 z_{k-1} z k − 1 。
它必须是可微分的 ,以便雅可比矩阵存在。
最重要的是,其雅可比行列式 det J f k \det J_{f_k} det J f k 必须能够高效计算。这个限制严重影响了合适流层的设计。
一系列可逆变换 f 1 , … , f K f_1, \dots, f_K f 1 , … , f K 将来自简单基分布 p 0 ( z 0 ) p_0(z_0) p 0 ( z 0 ) 的样本 z 0 z_0 z 0 映射到来自更复杂目标分布 p K ( z K ) p_K(z_K) p K ( z K ) 的样本 z K z_K z K 。这些变换的参数 (parameter)通常是学习得到的。
将归一化 (normalization)流融入 VAE
归一化流的灵活性可以在 VAE 框架内得到应用,以丰富变分后验 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 、先验 p ( z ) p(z) p ( z ) ,甚至两者。
更具表达力的变分后验
标准 VAE 通常对变分后验采用分解高斯分布,例如 q ϕ ( z ∣ x ) = N ( μ ϕ ( x ) , diag ( σ ϕ 2 ( x ) ) ) q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \text{diag}(\sigma^2_\phi(x))) q ϕ ( z ∣ x ) = N ( μ ϕ ( x ) , diag ( σ ϕ 2 ( x ))) 。这是一种平均场近似,它假设给定 x x x 时隐变量维度之间相互独立。如果真实后验 p ( z ∣ x ) p(z|x) p ( z ∣ x ) 表现出复杂的关联或多峰性,这个假设可能会过于受限。
使用 NF,我们可以构建一个丰富得多的 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) :
编码器网络(由 ϕ \phi ϕ 参数 (parameter)化)输出一个简单基分布的参数,例如 z 0 ∼ q b a s e ( z 0 ∣ x ) z_0 \sim q_{base}(z_0|x) z 0 ∼ q ba se ( z 0 ∣ x ) (例如,一个对角高斯分布,其均值和方差是 x x x 的函数)。
这个初始样本 z 0 z_0 z 0 随后通过一系列 K K K 个流变换 f 1 , … , f K f_1, \dots, f_K f 1 , … , f K 。这些流层的参数也可以依赖于 x x x ,或者可以是全局的、学习得到的参数。这会产生 z K = f K ( … f 1 ( z 0 ) ) z_K = f_K(\dots f_1(z_0)) z K = f K ( … f 1 ( z 0 )) 。
得到的变分后验是 q ϕ ( z K ∣ x ) q_\phi(z_K|x) q ϕ ( z K ∣ x ) 。其对数密度计算如下:
log q ϕ ( z K ∣ x ) = log q b a s e ( z 0 ∣ x ) − ∑ k = 1 K log ∣ det J f k ( z k − 1 ) ∣ \log q_\phi(z_K|x) = \log q_{base}(z_0|x) - \sum_{k=1}^K \log \left| \det J_{f_k}(z_{k-1}) \right| log q ϕ ( z K ∣ x ) = log q ba se ( z 0 ∣ x ) − k = 1 ∑ K log ∣ det J f k ( z k − 1 ) ∣
这种更复杂的 q ϕ ( z K ∣ x ) q_\phi(z_K|x) q ϕ ( z K ∣ x ) 随后取代了证据下界(ELBO)计算中较简单的后验。具体来说,KL 散度项 E q ϕ ( z ∣ x ) [ log q ϕ ( z ∣ x ) − log p ( z ) ] \mathbb{E}_{q_\phi(z|x)}[\log q_\phi(z|x) - \log p(z)] E q ϕ ( z ∣ x ) [ log q ϕ ( z ∣ x ) − log p ( z )] 现在包含了这种表达能力强的密度。q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 更好地近似真实(通常难以处理的)后验 p ( z ∣ x ) p(z|x) p ( z ∣ x ) 的能力可以使 ELBO 更紧密(一个更高的值,更接近真实对数似然 log p ( x ) \log p(x) log p ( x ) ),从而获得更具信息量和实用价值的隐变量表示。
可学习的灵活先验
在许多 VAE 实现中,隐变量的先验 p ( z ) p(z) p ( z ) 是固定的,通常是标准正态分布 N ( 0 , I ) \mathcal{N}(0, I) N ( 0 , I ) 。这种选择对隐空间的结构施加了强烈的假设。如果数据的内在流形在投影到隐空间时不能自然地符合各向同性高斯形状,模型可能难以有效学习。
归一化流提供了一种巧妙的方式来使先验 p ( z ) p(z) p ( z ) 可学习且更具适应性:
从一个非常简单的基分布开始,z 0 ∼ p 0 ( z 0 ) z_0 \sim p_0(z_0) z 0 ∼ p 0 ( z 0 ) (例如,N ( 0 , I ) \mathcal{N}(0, I) N ( 0 , I ) )。
应用一系列 M M M 个流变换 g 1 , … , g M g_1, \dots, g_M g 1 , … , g M ,其参数 θ \theta θ 是可学习的,以获得 z M = g M ( … g 1 ( z 0 ) ) z_M = g_M(\dots g_1(z_0)) z M = g M ( … g 1 ( z 0 )) 。
这种构建方式定义了先验 p θ ( z M ) p_\theta(z_M) p θ ( z M ) ,其对数密度为:
log p θ ( z M ) = log p 0 ( z 0 ) − ∑ m = 1 M log ∣ det J g m ( z m − 1 ) ∣ \log p_\theta(z_M) = \log p_0(z_0) - \sum_{m=1}^M \log \left| \det J_{g_m}(z_{m-1}) \right| log p θ ( z M ) = log p 0 ( z 0 ) − m = 1 ∑ M log ∣ det J g m ( z m − 1 ) ∣
这些先验变换流层 g m g_m g m 的参数 θ \theta θ 在训练期间与 VAE 的编码器和解码器参数一起优化。更灵活的先验允许模型找到更适合数据的隐空间几何结构。这对于缓解后验坍塌特别有帮助,后验坍塌是一种通过使 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 几乎与 p ( z ) p(z) p ( z ) 相同来最小化 KL 散度项的现象,从而使隐变量失去信息。如果 p ( z ) p(z) p ( z ) 本身可以适应,编码器将数据映射到有意义的隐编码可能“更简单”。
常见的流变换架构
NF 的实际效用取决于设计既具表达力又允许高效计算其雅可比行列式的变换层 f k f_k f k 。几类这样的变换已被证实有效:
平面流 :这些应用变换 f ( z ) = z + u h ( w T z + b ) f(z) = z + u h(w^T z + b) f ( z ) = z + u h ( w T z + b ) ,变量 u , w ∈ R D u, w \in \mathbb{R}^D u , w ∈ R D 和 b ∈ R b \in \mathbb{R} b ∈ R 是可学习参数 (parameter),并且 h h h 是一个平滑的逐元素非线性函数,如 tanh \tanh tanh 。雅可比行列式相对简单:det J f = 1 + u T ψ ( z ) \det J_f = 1 + u^T \psi(z) det J f = 1 + u T ψ ( z ) ,其中 ψ ( z ) = h ′ ( w T z + b ) w \psi(z) = h'(w^T z + b)w ψ ( z ) = h ′ ( w T z + b ) w 。平面流直观易懂,但可能需要堆叠多层才能达到高表达力,因为每层基本上都是沿着一个超平面推拉密度。
径向流 :这些变换会修改围绕特定参考点 z r e f z_{ref} z re f 的密度:f ( z ) = z + β ( α + ∣ ∣ z − z r e f ∣ ∣ ) − 1 ( z − z r e f ) f(z) = z + \beta (\alpha + ||z - z_{ref}||)^{-1} (z - z_{ref}) f ( z ) = z + β ( α + ∣∣ z − z re f ∣∣ ) − 1 ( z − z re f ) 。参数包括 z r e f ∈ R D z_{ref} \in \mathbb{R}^D z re f ∈ R D 、α ∈ R + \alpha \in \mathbb{R}^+ α ∈ R + 和 β ∈ R \beta \in \mathbb{R} β ∈ R 。径向流可以创建密度上更局部的变化。
耦合层(例如 RealNVP, NICE, Glow) :这类变换特别强大且应用广泛,尤其适用于高维 z z z 。其核心思想是将输入 z z z 分为两部分(或更多部分),例如 z A z_A z A 和 z B z_B z B 。其中一部分根据另一部分进行变换,而另一部分可能保持不变或独立变换:
z A ′ = z A z'_A = z_A z A ′ = z A (第一部分的恒等变换)
z B ′ = z B ⊙ exp ( s ( z A ) ) + t ( z A ) z'_B = z_B \odot \exp(s(z_A)) + t(z_A) z B ′ = z B ⊙ exp ( s ( z A )) + t ( z A ) (第二部分进行缩放和平移,缩放函数 s ( ⋅ ) s(\cdot) s ( ⋅ ) 和平移函数 t ( ⋅ ) t(\cdot) t ( ⋅ ) 是复杂的映射,例如神经网络 (neural network),它们仅 依赖于 z A z_A z A 。
这种变换的雅可比矩阵是下三角矩阵(如果 z B ′ = z B z'_B = z_B z B ′ = z B 则是上三角矩阵),这意味着其行列式简单地是其对角元素的乘积。对于上述形式,这表示为 ∏ i exp ( s ( z A ) i ) = exp ( ∑ i s ( z A ) i ) \prod_i \exp(s(z_A)_i) = \exp(\sum_i s(z_A)_i) ∏ i exp ( s ( z A ) i ) = exp ( ∑ i s ( z A ) i ) 。逆变换在计算上也很高效:
z A = z A ′ z_A = z'_A z A = z A ′
z B = ( z B ′ − t ( z A ′ ) ) ⊙ exp ( − s ( z A ′ ) ) z_B = (z'_B - t(z'_A)) \odot \exp(-s(z'_A)) z B = ( z B ′ − t ( z A ′ )) ⊙ exp ( − s ( z A ′ ))
通过堆叠许多这样的耦合层并交替变换 z z z 的哪一部分(例如,使用置换或交换 z A z_A z A 和 z B z_B z B 的角色),可以建模非常复杂且表达力强的分布。
自回归 (autoregressive)流(例如 MAF, IAF) :在这些流中,每个维度 z i z_i z i 的变换都取决于先前的维度 z < i = ( z 1 , … , z i − 1 ) z_{<i} = (z_1, \dots, z_{i-1}) z < i = ( z 1 , … , z i − 1 ) 。具体而言,z i ′ = τ ( z i ; h i ( z < i ) ) z'_i = \tau(z_i; h_i(z_{<i})) z i ′ = τ ( z i ; h i ( z < i )) ,其中 τ \tau τ 是一个可逆的标量变换(例如仿射变换 a z i + b a z_i + b a z i + b ),其参数 h i h_i h i (例如 a a a 和 b b b )由 z < i z_{<i} z < i 的函数生成。
掩码自回归流(MAF) :变换 z i z_i z i 的参数是基于 z < i z_{<i} z < i 生成的。这种结构使得密度评估 log p ( z ′ ) \log p(z') log p ( z ′ ) 高效(可以一次完成),但样本 z ′ z' z ′ 的生成是顺序的(先 z 1 ′ z'_1 z 1 ′ ,然后使用 z 1 ′ z'_1 z 1 ′ 生成 z 2 ′ z'_2 z 2 ′ ,以此类推),因此在高维情况下速度较慢。
逆自回归流(IAF) :设计为 MAF 的逆操作。样本 z ′ z' z ′ 的生成可以并行进行且非常快(因为在逆变换过程中 z i z_i z i 依赖于 z < i ′ z'_{<i} z < i ′ ),但密度评估变得顺序且缓慢。
MAF 和 IAF 都具有很强的表达力,特别是当条件函数 h i h_i h i 本身由神经网络参数化时(例如,使用 MADE 架构)。
一个简单的一维高斯基分布(蓝色)通过函数 z ′ = exp ( z ) z' = \exp(z) z ′ = exp ( z ) 变换为对数正态分布(橙色)。注意密度如何变化:变换扩展空间(大 z z z )的区域密度减小,而变换收缩空间(小 z z z )的区域密度增大,这由变换的雅可比矩阵决定。
归一化 (normalization)流对 VAE 性能的影响
将归一化流集成到 VAE 中可以带来显著的好处:
改进的密度建模和更紧密的 ELBO :通过让 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 更好地近似真实后验,或让 p ( z ) p(z) p ( z ) 更好地建模隐数据流形,NF 通常会带来更高的(更紧密的)ELBO。这表明 VAE 正在学习一个更好的数据分布模型。
增强的样本质量 :配备基于流的后验和/或先验的 VAE 经常生成样本(来自 p θ ( x ) = ∫ p θ ( x ∣ z ) p θ ( z ) d z p_\theta(x) = \int p_\theta(x|z) p_\theta(z) dz p θ ( x ) = ∫ p θ ( x ∣ z ) p θ ( z ) d z ),这些样本比标准 VAE 生成的更清晰、更多样、更真实。这在处理高分辨率图像等复杂数据的方面尤其明显。
更丰富、更有意义的隐变量表示 :当不受过于简单的分布形式限制时,VAE 可以学习到捕捉数据中更复杂且语义上更有意义的变异因素的隐变量 z z z 。如果可学习的基于流的先验允许隐空间调整其几何形状,则更是如此。
缓解后验坍塌 :更灵活的后验 q ϕ ( z ∣ x ) q_\phi(z|x) q ϕ ( z ∣ x ) 不太可能变得平凡(即忽略 x x x 并坍塌到先验 p ( z ) p(z) p ( z ) ),因为它具有建模复杂条件依赖关系的能力。同样,灵活的先验可以适应聚合后验,减少有时导致这种坍塌的 KL 散度压力。
然而,这些优势伴随着一些权衡:
增加的计算需求 :归一化流中的每一层都会增加计算负担,主要原因是变换的前向传播及其雅可比行列式的计算。更深或更复杂的流架构会明显增加训练和推理 (inference)时间。
更高的模型复杂度与优化难题 :由于流网络中增加了参数 (parameter),整个 VAE 模型变得更加复杂。优化这些更大的模型可能更困难,可能需要仔细的超参数 (hyperparameter)调整、复杂的优化算法或更长的训练计划。
流架构的选择 :改进的程度通常很大程度上取决于具体流架构的选择(例如,耦合流与自回归 (autoregressive)流,流层的数量,每层内神经网络 (neural network)的复杂度)。为给定问题选择最优的流设计并非总是简单直接的,并且是一个活跃的研究方向。
推进表达性分布
归一化 (normalization)流标志着 VAE 工具集中的一项重要进步,直接解决了与分布假设相关的一些基本局限。它们使得 VAE 能够学习模型中推断(后验)和生成(先验)两方面的复杂概率分布。当你为挑战性数据集设计 VAE 或追求顶尖的生成性能和表示质量时,评估 NF 增加的表达能力是否值得计算投入是一个重要考量。它们成功集成到许多前沿生成模型中,突显了它们在现代深度学习 (deep learning)中的价值。