尽管DDPM采样过程通过细致地逐步反转扩散过程,能够可靠地生成高质量样本,但通常需要大量步骤(通常$T=1000$或更多)。每一步都涉及较大的U-Net模型的正向传播,这使得生成过程计算成本高且缓慢。如果您需要生成大量样本,或在交互式应用中使用扩散模型,这种延迟会成为一个主要瓶颈。这促使了对更快采样方法的需求。最有影响力且被广泛采用的方法之一是去噪扩散隐式模型(DDIM),由Song、Meng和Ermon在2020年提出。DDIM提供了一种更灵活的方式来反转扩散过程。回顾一下,DDPM采样定义了一个特定的马尔可夫过程:生成$x_{t-1}$严格只依赖于前一个状态$x_t$。DDIM提出了一种不同的、非马尔可夫生成过程,该过程仍然使用为DDPM训练的完全相同的神经网络。它的主要观点是,DDPM的训练目标并未严格强制执行DDPM采样所用的特定马尔可夫链;它主要训练网络来预测噪声$\epsilon_\theta(x_t, t)$。DDIM采用这种方式,即设计一种采样过程,该过程可以进行更大的“跳跃”回到原始数据$x_0$。DDIM不需要计算所有$T$个中间步骤$x_{T-1}, x_{T-2}, \dots, x_1$,而是允许使用更少的一部分步骤进行采样,例如$S < T$。例如,您可能只使用50或100步而不是1000步,大幅加速了生成过程。DDIM的一个显著特性是,它在特定参数(通常记为$\eta$,eta)设为0时能够生成确定性输出。给定相同的初始噪声$x_T$和相同的时间步序列,当$\eta=0$时,DDIM总是会生成完全相同的最终样本$x_0$。这与DDPM不同,DDPM在每一步都会添加随机噪声(由方差$\sigma_t^2$控制),这使其输出本质上是随机的。当$\eta > 0$时,DDIM会重新引入随机性,其中$\eta=1$通常会恢复与DDPM非常相似的行为。这种对确定性的控制对于需要可复现结果的应用或在潜在空间中进行插值很有用。本质上,DDIM提供了一类泛化的采样过程族,DDPM是其一个特定情况。它通过修改用于从$x_t$估计$x_{t-1}$的更新规则来实现了更快的采样,从而允许更大的、可能是确定性的步骤。其权衡是,尽管DDIM快得多,但使用极少步骤的样本质量有时可能略低于完整运行的DDPM,尽管DDIM通常在显著减少的步骤数(例如50-200)下也能生成出色的结果。下一节将详细阐述DDIM采样的具体数学公式和算法,并强调它与您之前看到的DDPM更新规则有何不同。