趋近智
扩散模型尽管能生成高清晰度图像,但也带来巨大的计算要求,这与其他许多深度学习 (deep learning)任务不同。这种固有的计算成本是其大规模部署相关工程难题的主要原因。了解这些需求的来源对设计高效且经济的部署策略来说十分重要。
扩散过程的核心,特别是在推理 (inference)(图像生成)阶段,涉及一个迭代精修过程。模型从随机噪声开始,经过一系列时间步(通常表示为 ),逐步对数据进行去噪。每个时间步都需要通过一个大型神经网络 (neural network)(通常是U-Net架构的变体)进行一次完整的正向传播。
扩散模型中的图像生成不是像图像分类那样的单次操作。它通过模拟逆转噪声添加的逆向过程来运行。
在这里, 表示时间步 时的带噪声图像,模型预测一个噪声较小的版本 (或要减去的噪声本身)。这个预测步骤重复 次,从纯噪声 () 开始,直到最终生成的图像 ()。步骤数 可以从几十到几千不等,具体取决于使用的模型和采样器。由于每个步骤都涉及评估整个神经网络 (neural network),总计算成本与 呈线性关系。
图示说明了扩散模型推理 (inference)的迭代特性。每个步骤都需要通过基础神经网络(通常是U-Net)进行一次正向传播。
扩散模型中使用的神经网络 (neural network)通常庞大且计算密集。U-Net架构在该方面很常见,具有导致其高成本的几个特性:
通过这样一个网络的一次正向传播涉及大量的浮点运算 (FLOPs)。对于典型的512x512图像生成,一个步骤可能需要数百GFLOPs (千兆浮点运算) 甚至TFLOPs (万亿浮点运算)。
内存访问模式和容量是重要因素:
计算成本对推理 (inference)步骤数 () 和输出图像分辨率都非常敏感:
单次推理的大致GFLOPs对比(对数刻度)。请注意,一次完整的扩散生成需要许多步骤,大幅增加了每步的成本。数值仅供参考。
总而言之,大型神经网络 (neural network)(带有注意力的U-Net)、迭代多步去噪过程以及与权重 (weight)和激活相关的内存需求的结合,使得扩散模型推理比许多传统深度学习 (deep learning)任务明显消耗更多资源。这些因素直接转化为在生产环境中部署这些模型时,与延迟、吞吐量 (throughput)和基础设施成本相关的挑战。随后的章节将探讨通过优化和基础设施设计来减轻这些计算要求的策略。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•