趋近智
扩散模型,例如DDPM和DDIM变体,以其生成高质量图像、音频及其他数据类型的能力而著称。与其他生成方法相比,它们通常能产生具有更好样本质量和分布覆盖度的结果。然而,这种高质量却要付出很大的计算代价,主要体现在生成(采样)阶段。
扩散模型的核心机制涉及一个反向过程,该过程迭代地精炼一个噪声样本,使其恢复到数据分布中的样本。这个过程通常需要多次评估模型的神经网络 (neural network)(通常是U-Net或Transformer),在反向序列中的每个时间步评估一次。标准的实现可能对DDPM使用1000个时间步。虽然像DDIM这样的更快采样器可以通过沿着轨迹进行更大的跳跃将步数减少到50-200步,但这仍然代表着大量的序列化网络评估。
考虑生成一张图像。如果每次网络评估需要几毫秒,那么进行1000次评估则每张图像需要几秒钟。即使是50步,虽然是显著的改进,但与那些能够通过一次前向传播生成样本的模型相比,仍然是一个障碍。这种迭代、序列化的依赖性使得跨时间步的并行化变得不可能,从根本上限制了推理 (inference)速度。
这种多步采样过程造成了几个实际限制:
不同方法在每样本生成中所需网络评估的大致比较。请注意Y轴的对数刻度,这显示了更快方法所追求的数量级差异。
标准扩散采样的迭代特性与其他生成框架中常见的单步推理之间存在显著差距,这推动了对加速采样过程的研究。虽然像DDIM和更高级的ODE求解器(我们将在稍后讨论)等技术比原始DDPM提供了显著的加速,但即便如此,对更快生成的追求仍然很高,理想情况是接近单步推理,同时不显著降低扩散模型出色的质量。
这就是一致性模型背后的主要动机。目标是开发一种方法,能够在一到少数几个步骤内将噪声直接映射到高质量样本,从而有效绕过传统扩散采样中固有的缓慢迭代精炼过程。后续章节将详细说明如何定义和利用“一致性特性”,以实现生成速度的显著提升。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•