趋近智
尽管一致性模型的核心思想在于其训练目标和采样过程,但神经网络架构的选择仍是影响性能、训练稳定性和推理速度的重要因素。通常,在标准扩散模型中成功应用的架构,可作为一致性模型的良好起点,它们已采用成熟的设计模式。
一致性模型,无论是通过蒸馏训练还是独立训练,通常都会采用那些已被证明在扩散建模中有效的骨干架构。这通常指使用:
The理由很简单:这些架构已针对基于有噪声的输入 xt 和时间 t 预测输出(如噪声 ϵ 或数据 x0)的任务进行优化。一致性模型只是将这种预测能力重新定向,以学习一致性映射 fθ(xt,t)≈x0。
与标准扩散模型一样,一致性模型需要关于“去噪”过程中当前点的信息,这由时间 t(或噪声水平 σ)表示。嵌入 t 的方法通常继承自基础扩散架构:
对于连续时间一致性模型,确保网络能平稳处理连续 t 值是很重要的。嵌入机制必须有效表示这个连续变量。
一致性模型中的条件生成(例如,基于文本提示或类别标签)通常遵循与父级扩散模型中相同的策略:
条件机制的选择很大程度上取决于基础架构(U-Net vs. Transformer)和条件信号的类型。一致性训练目标本身并不要求对条件信息如何融入网络前向传播进行根本性改变。
在使用一致性蒸馏时,会出现一个重要考量:一致性模型(学生模型)是否需要与预训练扩散模型(教师模型)相同的架构复杂度和参数量?
此图描绘了在蒸馏过程中,大型教师扩散模型与可能更小的学生一致性模型之间的关系。两者常共享架构模式,但在大小和预测目标上有所不同。
标准扩散模型常被参数化以预测在步骤 t 添加的噪声 ϵ。网络输出 ϵθ(xt,t) 随后用于估计 x0。一致性模型,顾名思义,旨在直接将轨迹上的任意点 xt 映射到其原点 x0。因此,一致性模型 fθ(xt,t) 的输出层通常被配置为直接生成与输入数据 x0 具有相同维度和值范围的输出。与预测 ϵ 的扩散模型相比,这可能涉及对最终激活函数的调整(例如,如果数据被归一化到 [-1, 1] 则使用 tanh)。
尽管一致性模型引入了一种更快采样的办法,但其架构组成部分通常依然常见,使得实践者可以运用现有扩散模型架构的知识,同时专注于一致性目标的具体内容及其对模型大小和输出表示的影响。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造