趋近智
尽管标准扩散模型训练目标——预测在时间步 t 添加的噪声 ϵ——表现出色,但研究人员已经对模型的预测目标和损失函数考察了其他形式。这些替代方案在样本质量、训练稳定性以及模型在不同噪声水平下的表现方面有优势。两种重要的方法是广泛使用的简化损失 Lsimple (基于 ϵ-预测) 和 v-预测目标。
大多数扩散模型都训练来预测添加到原始数据 x0 中以生成含噪声样本 xt 的噪声 ϵ。回想一下前向过程:
xt=αˉtx0+1−αˉtϵ这里ϵ∼N(0,I)该模型,通常是 U-Net 或 Transformer,表示为 ϵθ,接收含噪声输入 xt 和时间步 t (通常通过嵌入),并输出噪声的预测:ϵθ(xt,t)。
从变分下界 (VLB) 推导出的理论损失包含依赖于时间步 t 的加权项。然而,DDPM 论文发现,简化、未加权版本的损失在实践中通常会产生更好的结果:
Lsimple=Et∼U(1,T),x0∼q(x0),ϵ∼N(0,I)[∥ϵ−ϵθ(xt,t)∥2]在此,t 是从总时间步数 T 中均匀采样的。这个 Lsimple 目标在计算上很简单,并构成了许多成功扩散模型实现的核心。它通过预测添加的噪声来直接优化模型以对输入进行去噪。
尽管取得了成功,但预测 ϵ 有时会面临挑战,特别是在扩散过程的边界附近 (非常小的 t 或非常大的 t),那里信噪比变化剧烈。
一种旨在解决 ϵ-预测某些局限性的替代形式是 v-预测。模型不预测噪声 ϵ,而是预测一个不同的目标 v,定义如下:
v=αtϵ−σtx0在这里,我们使用常见表示法,其中 αt=αˉt (信号尺度) 和 σt=1−αˉt (噪声尺度),这与前向过程方程 xt=αtx0+σtϵ 一致。
为什么预测 v?其直觉与扩散过程中信号的缩放有关。目标 ϵ 始终具有单位方差。然而,含噪声输入 xt 的方差随 t 变化。预测 v 可以被解释为预测一个在不同时间步长上具有更一致方差的目标,这可能使网络的学习任务更简单或更稳定。它有效地平衡了分数函数 (∇xtlogp(xt)) 和数据 x0 的预测。
模型架构基本保持不变 (例如 U-Net),但现在将其参数化以输出 vθ(xt,t)。相应的损失函数与 Lsimple 类似,但以 v 为目标:
Lv=Et,x0,ϵ[∥v−vθ(xt,t)∥2]通常,类似于完整 VLB 中的加权项可能会被重新引入,或者损失可能基于分数匹配原理来制定,但核心思想是预测这个 v 目标。
使用 v-预测时,你需要调整模型输出在采样过程中的使用方式。如果模型 vθ(xt,t) 预测 v,你可以根据采样步骤 (如 DDIM 或 DDPM) 的需要恢复 ϵ 和 x0 的预测值:
预测的 ϵ=αtvθ(xt,t)+σtxt 预测的 x0=αtxt−σtvθ(xt,t)这些恢复的值随后可以插入到标准采样方程中。
在 ϵ-预测 (Lsimple) 和 v-预测 (Lv) 之间的选择并非总是明确的,可能取决于具体的应用、数据集和模型架构。
Lsimple (ϵ-预测):
Lv (v-预测):
下图说明了网络在每种形式中旨在预测的不同目标:
该图比较了 ϵ-预测和 v-预测形式的预测目标和损失计算。两者都以含噪声数据 xt 和时间步 t 作为输入。
最终,Lsimple 和 Lv 都是训练扩散模型的有效目标。虽然 Lsimple 仍是一个基准,但 v-预测提供了一个有价值的替代方案,特别是在追求样本质量或处理训练动态时。通常需要通过实验来确定给定项目的最佳选择。了解这些不同的形式为您提供了更多工具,可以在训练期间优化和控制扩散模型的行为。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造