趋近智
虽然最初的 StyleGAN 架构在生成高分辨率、视觉上吸引人的图像以及解耦控制方面取得了重大进步,但实践者很快发现了某些固有的视觉伪影和局限性。StyleGAN2 的开发正是为了应对这些不足,它改进了生成器和训练过程,以获得更高的逼真度和更平滑的结果。
StyleGAN 输出中最明显的问题之一是出现了斑点状或“水滴”状伪影。这些伪影可追溯到合成网络中使用的自适应实例归一化 (AdaIN) 操作。回想一下,AdaIN 首先在每个通道内归一化特征图激活(零均值,单位方差),有效地消除了幅度信息,然后应用从样式向量 w 中学习到的缩放和偏置参数。
AdaIN(xi,y)=ys,iσ(xi)xi−μ(xi)+yb,i假设是,网络在归一化移除幅度信息后,难以仅仅通过学习到的偏置 yb,i 重新引入幅度信息。这有时导致生成器创建过强的局部信号(即“水滴”)来弥补。
StyleGAN2 将 AdaIN 替换为一种称为“调制卷积后接解调”(ModDemod)的技术。
调制: StyleGAN2 没有在归一化之后应用样式信息,而是直接在卷积之前将样式整合到卷积权重中。对于一个卷积层,其权重为 wijk(输出通道 j,输入通道 i,空间核位置 k),以及一个来自 w 并用于输入通道 i 的输入样式缩放因子 si,调制后的权重 wijk′ 变为:
wijk′=si⋅wijk这根据样式调整了每个输入特征图的影响力。
解调: 应用调制权重可能会大幅改变输出激活的整体尺度。为了抵消这种影响并防止信号放大或消失,在调制卷积之后应用解调。它根据用于生成输出特征图 x′ 的调制权重的 L2 范数对其进行归一化。对于每个输出特征图 j:
xj′′=xj′/i,k∑(wijk′)2+ϵ这里,ϵ 是一个用于数值稳定性的小常数。这个解调步骤确保输出激活的标准差大致保持为单位值,有效地基于学习到的权重本身标准化信号幅度,而不是通过实例归一化消除信息。
这种组合的 ModDemod 操作消除了对 AdaIN 的需求,从而去除了水滴状伪影的主要来源,获得了更清晰的特征图。
在 StyleGAN 中观察到的另一种伪影与相位有关。在潜在空间中进行插值时(或生成动画时),某些特征如眼睛或牙齿可能看起来“粘”在图像画布上,而不是随着表观姿态或视角变化自然移动。这表明网络表示空间频率和变换的方式存在问题。
StyleGAN2 的作者发现渐进式增长技术(继承自 ProGAN)是一个潜在原因。虽然渐进式增长最初有助于稳定高分辨率训练,但在训练期间动态改变网络架构可能会干扰生成器在不同特征尺度上学习一致的相位行为。
StyleGAN2 放弃了渐进式增长。相反,它从一开始就训练全分辨率网络。为了有效管理从低分辨率到高分辨率的信息流(渐进式增长旨在为此提供帮助),StyleGAN2 采用了:
toRGB 层,将中间特征分辨率直接映射到 RGB 输出。这些中间 RGB 输出随后被上采样并求和,以形成最终图像。这使得梯度能更直接地流向早期层,并促使网络同时使用所有分辨率级别上的特征。StyleGAN2 生成器架构的简化视图,突出显示了取代渐进式增长的跳跃连接(来自多个分辨率的
toRGB输出)。中间输出被组合以形成最终图像。
移除渐进式增长并采用这种替代的多尺度架构设计大幅减少了相位伪影,带来了看起来更自然的变换和插值。
为了进一步提高图像质量和潜在空间 W 的平滑度,StyleGAN2 在训练期间引入了路径长度正则化 (Lpath)。目标是促使从 W 到生成图像的映射更规则,这意味着在 W 中固定大小的步长应对应于图像中大致固定幅度的变化,无论在 W 中的位置或步长方向如何。在 W 中小步长导致图像的突然变化是不理想的,并且与较低的视觉质量相关联。
路径长度正则化器惩罚图像空间梯度(雅可比)幅度与常数值的偏差。其公式为:
Lpath=Ew,y∼N(0,I)[(∥JwTy∥2−a)2]通过最小化此损失,生成器受到激励,使映射 G:W→图像 局部更不“弯曲”且更可预测。这种正则化改善了模型条件,提升了图像质量(通常通过 FID 衡量),并带来了感知上更平滑的插值。
像 Lpath 或判别器的 R1 梯度惩罚这样的正则化项会给每个训练迭代增加大量的计算开销。StyleGAN2 引入了“惰性正则化”的思想,即这些计算密集型正则化项的计算和应用频率低于主要的生成器和判别器损失。例如,路径长度正则化可能每 16 个小批量才计算一次,而主要对抗损失则每个小批量都计算。这个简单方法显著降低了这些正则化器带来的训练时间成本,同时没有明显影响它们的有效性或最终模型质量。
总的来说,StyleGAN2 中的这些改进带来了显著的提升:
这些改进巩固了 StyleGAN2 作为高分辨率图像合成的基准架构地位,并进一步表明了仔细的架构设计和训练正则化在获得顶级的生成结果方面的重要性。理解这些改进为应对 GAN 开发中的常见难题提供了有益的见解。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造