您已经了解了从训练好的扩散模型中采样(生成)的两种主要方法:去噪扩散概率模型(DDPM)和去噪扩散隐式模型(DDIM)。虽然这两种方法都运用了训练好的噪声预测网络来逆转扩散过程,但它们操作方式不同,因此带来了不同的权衡。选择哪种方法取决于您在生成速度、样本质量和期望随机性水平方面的具体要求。让我们从几个重要方面来比较DDPM和DDIM。生成速度DDPM采样,按其最初的公式,需要逐步模拟逆向马尔可夫链。如果模型训练了 $T$ 个时间步(通常 $T=1000$ 或更多),DDPM采样就涉及对神经网络进行 $T$ 次顺序评估。这使得该过程计算量大且相对缓慢,因为每一步都依赖于前一步。DDIM在此方面提供了显著优势。由于DDIM以不同的方式构建生成过程(与求解基础微分方程有关),它不严格要求模拟原始正向过程序列 $1, ..., T$ 中的每一个时间步。相反,您可以选择一个时间步的子序列,比如 $S < T$ 步(例如,$S=50, 100, 200$),并仅在这些选定的时间步执行去噪更新。这大大减少了所需的网络评估次数,从而使样本生成速度快得多。例如,使用100步的DDIM可以比使用1000步的DDPM快10倍。样本质量通常,步数较多($T=1000$ 或更多)的DDPM采样已知能生成与训练数据分布非常匹配的高保真样本。每一步添加随机性的缓慢、渐进式去噪过程有助于实现这种质量。DDIM通常可以在比DDPM明显更少的步数下,达到可比甚至非常好的样本质量。然而,这通常存在权衡:过度减少DDIM步数(例如,根据模型和数据集,低于20-50步)可能导致样本质量相对于完整的DDPM运行出现明显的下降。DDIM的最佳步数通常需要通过实验来平衡速度和保真度。对于许多应用来说,100-200步的DDIM所产生的质量已足够,并且速度提升是可观的。{"layout": {"title": "样本质量与采样步数对比", "xaxis": {"title": "采样步数 (S 或 T)"}, "yaxis": {"title": "样本质量(越低越好,例如FID)"}, "legend": {"title": "采样器"}}, "data": [{"type": "scatter", "mode": "lines", "name": "DDPM", "x": [50, 200, 500, 1000], "y": [15, 10, 6, 5], "line": {"color": "#1c7ed6"}}, {"type": "scatter", "mode": "lines", "name": "DDIM", "x": [20, 50, 100, 200, 500, 1000], "y": [25, 12, 8, 6.5, 5.5, 5.1], "line": {"color": "#fd7e14"}}]}比较展示了DDPM和DDIM的样本质量(由FID等指标表示,越低越好)如何随采样步数变化。DDIM能更快地获得良好质量,但其质量下限可能比DDPM在最大步数下的表现略高。确定性与随机性DDPM采样本身就具有随机性。在每一步 $t$,逆向转换 $p_\theta(x_{t-1}|x_t)$ 都涉及采样,通常是通过添加由方差项 $\sigma_t^2$ 缩放的高斯噪声。这意味着即使从相同的初始噪声 $x_T$ 开始,多次运行DDPM采样过程也会产生不同的最终样本 $x_0$。这种随机性有助于生成样本的多样化。DDIM引入了一个参数,通常表示为 $\eta$ (eta),它控制着采样过程中的随机性程度。当 $\eta = 1$ 时,DDIM过程在随机性方面表现与DDPM相似(尽管使用了DDIM更新规则)。当 $\eta = 0$ 时,DDIM采样过程变为确定性的。给定相同的初始噪声 $x_T$,使用 $\eta=0$ 运行DDIM将始终生成完全相同的最终样本 $x_0$。这是因为当 $\eta=0$ 时,更新步骤中的随机噪声项会消失。这种确定性属性($\eta=0$)对于需要可重复性的应用,或对于图像反演和操作等任务很有帮助,在这些任务中您希望潜在噪声与生成图像之间存在可预测的对应关系。0到1之间的值允许在确定性和随机生成之间进行插值。步长灵活性DDPM采样遵循预定义的时间步序列 $T, T-1, ..., 1$。它不容易改变去噪过程中所取步骤的“大小”。DDIM的公式提供了更大的灵活性。通过允许使用原始时间步的子序列进行采样,DDIM从而实现了去噪过程中更大、非均匀的步长。这通过其与求解微分方程的联系得到了数学上的解释,在微分方程中步长可以进行调整。总结表格特性DDPMDDIM速度慢(需T步)快(可用S << T步)质量高(尤其步数多时)好(步数少时常可比,过少则下降)随机性始终随机由 $\eta$ 控制;若 $\eta=0$ 则确定步长固定(遵循原始T步)灵活(使用时间步子序列)应用场景最高保真度,多样化生成更快生成,交互式使用,确定性输出DDPM和DDIM的选择:如果您主要目标是生成最高质量的样本,并且计算时间不是主要限制,那么DDPM(使用较大的T)是一个很好的选择。如果您需要更快的生成速度,例如用于交互式应用或快速生成大量图像,那么DDIM(使用适中步数,例如50-200)通常更受青睐。如果您需要从相同的初始噪声获得确定性输出(例如,为了可重复性或受控编辑),DDIM与 $\eta=0$ 是应使用的方法。在实际应用中,DDIM因其显著的速度优势且通常能保持出色的样本质量而应用非常普遍。了解这些权衡有助于您选择最符合特定生成任务要求的采样方法。