趋近智
在介绍了扩散模型的核心思想(即系统地添加噪声并学习逆转该过程)之后,现在我们将其置于更正式的概率背景下。这个框架有助于我们理解其数学基础,并为后续章节中讨论的训练目标和采样算法的推导做好准备。
生成模型的目标是学习某些数据(例如图像)的潜在概率分布 q(x0)。我们希望构建一个由 θ 参数化的模型,能够从近似分布 pθ(x0) 中生成新的样本 x0。
前向过程,即我们逐步添加噪声的过程,可以正式定义为一系列潜在变量 x1,x2,...,xT。我们从原始数据样本 x0∼q(x0) 开始。每个后续步骤 xt 是通过对前一步 xt−1 应用一个固定噪声过程获得的。这个过程被定义为一个马尔可夫链,意味着 xt 仅取决于 xt−1:
q(x1:T∣x0)=t=1∏Tq(xt∣xt−1)转移概率 q(xt∣xt−1) 通常涉及添加少量高斯噪声,并根据预定义的时间表进行缩放。总步数 T 通常很大(例如1000)。随着 t 的增加,数据 xt 逐渐失去其原始结构,最终变得与纯噪声无法区分。根据设计,最终状态 xT 应该近似一个简单、易处理的分布,通常是标准高斯分布,xT≈N(0,I)。这个前向过程是固定的,不涉及任何学习。
前向过程逐步添加噪声,通过一个固定的马尔可夫链 q 将数据 x0 转换为噪声 xT。
生成能力源于逆向过程。我们的目标是从噪声分布 xT∼N(0,I) 中取样开始,然后逆转加噪步骤,以获得一个看起来来自原始数据分布 q(x0) 的样本 x0。这涉及学习逆向马尔可夫链的转移 pθ(xt−1∣xt):
pθ(x0:T)=p(xT)t=1∏Tpθ(xt−1∣xt)这里,p(xT) 是先验噪声分布(例如,N(0,I)),而 pθ(xt−1∣xt) 代表学习到的去噪步骤,它由一个带有参数 θ 的神经网络(通常是U-Net,我们稍后会看到)进行参数化。
主要挑战在于,真实逆向概率 q(xt−1∣xt) 难以直接计算,因为它依赖于整个数据分布。然而,如果我们将它条件设定在原始数据点 x0 上,它就变得易处理。扩散模型巧妙地利用了这一观点。虽然在生成过程中我们不知道 x0,但我们可以在训练期间使用它来制定一个易处理的目标。网络 pθ(xt−1∣xt) 经过训练以近似真实后验 q(xt−1∣xt,x0)。正如我们将在第3章中了解,这种近似通常简化为预测在步骤 t 添加的噪声。
逆向过程从噪声 xT 开始,学习使用参数化的马尔可夫链 pθ 逐步去噪,从而生成数据 x0。
这种设置提供了一种结构化的方式,将复杂的数据分布 q(x0) 转换为简单的噪声分布 p(xT),然后通过一系列去噪步骤 pθ(xt−1∣xt) 隐式地学习逆向变换 pθ(x0∣xT)。中间状态 x1,...,xT−1 充当潜在变量,引导生成从纯噪声回到结构化数据。
最终目标是训练参数 θ,使得通过从 xT∼p(xT) 开始运行完整的逆向过程所获得的分布 pθ(x0) 紧密匹配真实数据分布 q(x0)。训练目标(我们将在第4章中详细查看)通常涉及最大化模型下观察到的数据 x0 的似然。这通常通过优化对数似然的下界(即ELBO)来实现,ELBO 方便地分解为与扩散过程每一步中预测噪声相关的项。
这个概率视角为理解扩散模型如何运作、如何训练以及如何生成样本提供了基础。后续章节将介绍前向和逆向步骤的具体数学公式。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造