趋近智
扩散模型被训练用于预测添加到图像 x0 中以在特定时间步 t 创建更嘈杂版本 xt 的噪声 ϵ。其训练目标通常涉及最小化预测噪声 ϵθ(xt,t) 与用于生成 xt 的实际噪声 ϵ 之间的差异。
那么,我们如何使用这个训练好的模型 ϵθ 来生成 新的 数据样本呢?生成过程,通常称为采样或推理,通过逆转前向扩散过程来运作。我们不是从数据开始并添加噪声,而是从纯噪声开始,并在模型引导下逐步去除噪声。
生成的起点是从标准高斯分布中抽取的样本 xT:
xT∼N(0,I)这个 xT 代表前向过程中最大加噪步数后的状态,本质上是纯粹、无结构的噪声。我们的目标是逐步地将这个 xT 随着时间的推移进行去噪,一步一步地,直到我们得到一个干净的样本 x0。
核心思路是使用训练好的噪声预测网络 ϵθ 在每个时间步 t(从 T 到 1)来估计给定当前嘈杂样本 xt 时,稍不那么嘈杂的样本 xt−1 应该是什么样子。
设想我们在时间步 t 拥有样本 xt。我们的模型 ϵθ(xt,t) 提供了 xt 中噪声成分的估计。我们可以使用这个估计向 xt−1 “向后”迈进一步。具体的数学运算取决于所选择的采样算法(例如 DDPM 或 DDIM,我们将在接下来详细说明),但基本原则是一致的:使用预测噪声来引导从 xt 到 xt−1 近似值的转变。
该过程迭代重复:
每个反向步骤 pθ(xt−1∣xt) 都会细化样本,逐步将最初的无结构噪声转换为模型在训练期间学习到的数据分布。如果模型用人脸图像训练,那么 x0 应该看起来像一张人脸。如果用猫的图像训练,那么 x0 应该像一只猫。
以下图表展示了这个迭代去噪流程:
生成过程从随机噪声 xT 开始,并在每个时间步 t 迭代应用学到的去噪函数 ϵθ,以逐步生成更干净的样本,最终得到最终输出 x0。
这一整体流程为生成数据提供了依据。接下来的章节将详细说明具体算法,从 DDPM 开始,这些算法定义了如何使用预测噪声 ϵθ(xt,t) 精确计算从 xt 到 xt−1 的转变。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造