趋近智
虽然去噪扩散概率模型 (DDPM) 为高质量图像生成提供了强大的架构,但其迭代采样过程通常需要数百或数千步,这带来了显著的计算瓶颈。去噪扩散隐式模型 (DDIM) 被引入作为 DDPM 的一个概括,专门用于通过实现更快的采样来解决这一限制。
DDPM 的一个主要区别在于逆向过程的性质。DDPM 假设一个马尔可夫逆向过程,即 pθ(x0:T)=p(xT)∏t=1Tpθ(xt−1∣xt),其中每一步 xt−1 仅依赖于前一步 xt。然而,DDIM 利用了更通用、非马尔可夫的推断过程。这个看似微小的改变具有深远的影响。重要的是,DDIM 使用完全相同的神经网络 ϵθ(xt,t),该网络使用标准 DDPM 目标(通常是预测噪声的简化版本)进行训练。创新完全在于采样过程。
DDIM 采样的核心思想源于对 DDPM 前向过程推导中使用的条件分布 q(xt−1∣xt,x0) 的分析。回想一下,在 DDPM 中,逆向步骤 pθ(xt−1∣xt) 旨在近似 q(xt−1∣xt)。DDIM 转而设计了一个直接使用从 q(xt−1∣xt,x0) 导出的性质的采样过程。
首先,给定 xt 和预测噪声 ϵθ(xt,t),我们可以得到初始数据点 x0 的估计。使用前向过程定义 xt=αˉtx0+1−αˉtϵ(其中 ϵ∼N(0,I) 且 αˉt=∏i=1tαi=∏i=1t(1−βi)),我们可以重新排列以预测 x0:
x^0(xt,t)=αˉt1(xt−1−αˉtϵθ(xt,t))这个 x^0 表示模型在时间步 t 给定噪声图像 xt 时对原始清晰图像的最佳估计。
现在,DDIM 不再从近似后验 pθ(xt−1∣xt) 采样 xt−1,而是使用 x^0 定义一个直接采样步骤。完整的 DDIM 更新步骤,考虑时间步长的一个子序列 ti,ti−1(其中 i 从 S 递减到 1,且 tS=T,t0=0),由下式给出:
xti−1=方向到 x0αˉti−1x^0(xti,ti)+噪声方向1−αˉti−1−σti2⋅ϵθ(xti,ti)+随机噪声σtizt这里,zt∼N(0,I) 是新的高斯噪声,σti2 控制过程的随机性。它通常由 η 参数化:
σti2=η(1−αˉti)(1−αˉti−1)(1−αˉti−1αˉti)当设置超参数 η=0 时,DDIM 的一个重要特性便会显现。这使得 σti=0,消除了随机噪声项 zt,从而得到一个确定性更新规则:
xti−1=αˉti−1x^0(xti,ti)+1−αˉti−1⋅ϵθ(xti,ti)这种确定性意味着从相同的初始噪声 xT 开始,采样过程将始终生成完全相同的最终图像 x0。此属性对于需要可复现性或潜在空间操控的任务很有价值。
此外,非马尔可夫公式允许 DDIM 在采样过程中跳过步骤。虽然 DDPM 通常需要对所有 T 个时间步进行采样(例如 T=1000),但 DDIM 可以使用短得多的子序列 τ={t1,t2,...,tS},其中 S≪T(例如 S=20,50 或 100)。采样器直接从 xti 跳到 xti−1,显著减少了通过网络 ϵθ 所需的前向传播次数。
DDPM(上,蓝色)和 DDIM(下,红色)采样路径的比较。与原始扩散步骤数 (T) 相比,DDIM 允许显著减少步骤数 (S)。
DDIM 提供的加速伴随着权衡。虽然显著加快,但使用更少的采样步骤 (S) 有时会导致样本质量或多样性略有下降,相比于运行完整的 DDPM 过程或使用更大的 S。对 S 和 η 的选择允许调整速度和保真度之间的平衡。将 η=1 设置为恢复与原始 DDPM 采样密切相关的过程(尽管仍在使用所选子序列上的非马尔可夫结构),重新引入了随机性。
从理论角度来看,确定性 DDIM (η=0) 过程可以解释为近似求解与扩散过程相关的特定概率流常微分方程 (ODE) 的轨迹。这种关联将扩散模型与连续时间生成模型联系起来,并为开发更先进的基于 ODE 的采样器提供了依据,我们将在第 6 章中讨论。
理解 DDIM 采样机制、其确定性变体以及通过跳过步骤加速生成的能力具有根本意义。它不仅为现有经过 DDPM 训练的模型提供了更快的采样实用方法,而且还作为扩散模型采样和蒸馏技术许多后续进展的构建模块,这些将在本课程后续部分介绍。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造