趋近智
标准扩散采样器的迭代特性因计算成本高昂而带来实际难题。这种迭代过程通常源于扩散模型与常微分方程(ODE)之间的内在联系。一致性模型提供了一种独特的方法,以避免这种多步生成过程。这种方法的根本在于源于扩散底层连续时间视图的一致性。
扩散模型可以从连续随机过程及其对应的常微分方程的视角来理解。具体来说,生成过程可以看作是逆转一个由常微分方程描述的前向过程,该常微分方程通常称为概率流(PF)常微分方程。设表示在时间时的状态(例如,一张图像),时间的范围从(真实数据)到(近似纯噪声)。PF ODE描述了将数据点转换为噪声以及逆向转换的路径或轨迹。标准扩散采样器本质上通过从向后进行许多小的离散步骤来估计,从而近似该常微分方程的解。
一致性模型的核心思想围绕着定义在这些常微分方程轨迹上的函数的一个特定属性。设想有一个函数,我们称之为,它接收沿特定PF ODE轨迹在任意时间的含噪声状态,并直接将其映射回该轨迹的起点,。
数学上,设是从开始的PF ODE的解轨迹,是一个接近零的小正值(作为积分的下限),且是最大噪声时间。如果一个函数满足一致性,即对于沿此特定轨迹在区间内的所有:
该等式表明,无论你在轨迹上的哪个点(在任何时间),一致性函数总是生成该轨迹的初始数据点。
此外,这意味着一种自一致性形式:对于相同轨迹上的任意两个点和(其中):
正是同一轨迹上点在时间上的这种自一致性特征赋予了这些模型其名称。
示意图说明了一致性。点,,和都位于从开始的同一概率流ODE轨迹上。一致性函数将这些点中的每一个都映射回原始数据点。
这种一致性函数的存在对生成过程有深远影响。如果我们能够学习或准确近似,我们就可能一步完成生成。我们将从噪声分布中抽取一个样本(通常是标准高斯分布),然后简单计算:
这直接估计了对应于以噪声样本结束的轨迹的数据点,从而避免了DDPM、DDIM或其他ODE求解器中所需的迭代细化。
这与标准扩散模型采样根本不同。传统方法训练一个模型(通常是U-Net或Transformer),用于预测得分函数或在时间添加的噪声。采样过程涉及在一个数值求解器中借助这些预测(例如用于SDE的Euler-Maruyama或用于ODE的DDIM/DPM-Solver),进行许多小的时间步长反向操作,逐步将噪声转换为样本。
对比之下,一致性模型旨在学习从时间回溯到的整个积分过程的结果,该结果封装在函数中。后续章节将讨论如何训练神经网络 (neural network)来近似这个一致性函数,从而实现极快的生成。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•