趋近智
生成摄影或数字艺术中常见分辨率的图像,例如1024x1024像素或更高(百万像素范围),对生成模型带来了重大挑战。在这些尺度下直接生成会占用大量GPU显存 (VRAM),大幅增加计算耗时,且常使训练不稳定。为克服这些障碍,已发展出几种方法,使利用先进的GAN和扩散模型技术生成高保真、高分辨率图像成为可能。
回顾第2章,我们讨论了渐进式GAN增长(ProGAN)。这种方法通过在生成器和判别器中增加层来逐步提高训练期间的输出分辨率。虽然在达到1024x1024等分辨率时表现良好,但训练稳定性和架构复杂性在更高分辨率下可能成为制约因素。
StyleGAN及其变体在此基础上构建,但引入了对高分辨率生成特别有益的架构改进:
这些特性共同促成了StyleGAN比早期架构更稳定地生成高质量、高分辨率图像的能力。然而,在直接生成多百万像素分辨率图像时,即使是StyleGAN也面临显存 (VRAM)和计算限制。
另一种策略是在从高分辨率图像中提取的小块上训练生成模型。其核心是模型从这些块中学习与高分辨率相关的统计特性和纹理。
基于块的方法主要困难在于保持全局连贯性并避免在块边界处出现可见的接缝或伪影。虽然对纹理和重复模式有效,但纯粹从图像块生成全局一致的结构(如人脸或复杂场景)具有挑战性。
这些方法明确使用多个在不同分辨率下运行的模型或阶段,以构建最终的高分辨率输出。
一张图表,说明了用于高分辨率图像生成的级联细化流程。基础生成器创建一个低分辨率图像,该图像随后由在逐渐增加的分辨率下运行的专用模型进行顺序上采样和细化。
扩散模型(第4章)擅长生成高保真图像,但计算开销大,尤其是在高分辨率下经过多步的去噪过程。潜在扩散模型(LDMs)通过在较低维度的潜在空间中执行计算密集型扩散过程来解决此问题。
潜在扩散模型方法。编码器将高分辨率图像映射到潜在空间。扩散/去噪过程完全发生在这个计算成本较低的潜在空间中。解码器随后将生成的潜在编码映射回高分辨率像素空间。
通过在空间维度上比像素空间小4倍、8倍甚至16倍的潜在空间中执行迭代去噪,LDMs大幅降低了计算需求,使扩散模型在消费级硬件上进行百万像素图像生成成为可能。自编码器的质量非常重要;它必须在潜在空间中捕获与感知相关的信息,以获得高质量的最终输出。
通常,最先进的结果是通过结合这些策略实现的。例如:
无论采用何种策略,生成高分辨率图像仍然是计算密集型任务。训练这些模型通常需要多GPU配置、大量内存(包括系统内存和GPU显存 (VRAM))以及可观的训练时间(数天或数周)。梯度累积、混合精度训练以及可能的模型并行等技术成为从事高分辨率生成前沿工作的实践者不可或缺的工具。评估输出也需要仔细考量,因为像FID这样的指标在极高分辨率下可能会饱和或表现不同于较低分辨率,这使得定性评估和专用指标变得更为重要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造