趋近智
虽然像 ProGAN 这样的架构通过逐步增加网络深度来生成高分辨率图像,并表现出有效的方法,但控制生成图像的具体特性依然存在挑战。标准的潜在空间 常常表现出缠结,这意味着改变 中的一个维度可能会影响输出图像中多个不相关的特征。由 Karras 等人(NVIDIA)提出的 StyleGAN,代表着架构上的一大转变,其设计专门为了解决这个问题,并为合成过程提供更直观的控制。
StyleGAN 没有直接将初始潜在代码 输入到生成器网络,而是引入了几个新颖的组件,它们共同作用,使不同精细程度的风格特征分离。
第一个主要变化是引入了一个映射网络,记作 。这通常是一个8层的多层感知器 (MLP)。其作用是将从标准分布(例如高斯分布)中提取的输入潜在代码 转换为中间潜在空间 。所以,,其中 。
映射网络将输入潜在 转换为中间潜在 的简化图示。
为何引入这个中间空间 ?映射网络 不必保持输入空间 的分布。这种自由使得 能够“解开”潜在空间,使 可能比 更少缠结。数据中的变异因素可能在 中表示得更线性,从而使得在生成过程中更容易控制特定属性。例如,在 中分离身份、姿态和光照等因素可能更可行。
第二个主要组成部分是合成网络 。与传统 GAN 生成器在第一层直接接收潜在代码 作为输入不同,StyleGAN 合成网络从一个学习到的常数张量开始。中间潜在代码 随后用于控制 在网络中多个点生成的特征。
在合成网络的每个分辨率级别,也会明确地添加噪声。这种噪声是为每一层独立采样的,并提供了一种机制,使网络能够生成随机细节,例如毛发或雀斑的确切位置,而无需完全依赖于潜在代码 。
将 中的风格信息注入合成网络 的机制是自适应实例归一化 (AdaIN)。AdaIN 根据从 获得的风格信息修改合成网络的归一化激活。
回想一下,实例归一化 (IN) 对每个通道每个样本的特征统计量(均值和标准差)进行归一化。AdaIN 通过使用从中间潜在向量 (vector) 获得的风格尺度 () 和偏置 (bias) () 来调制这些归一化特征,从而扩展了这一点。对于特定层 的激活图 :
这里:
简而言之,AdaIN 首先将特征图 归一化,使其每个通道具有零均值和单位方差,从而移除编码在这些统计量中的原始风格信息。然后,它使用从 获得的参数 (parameter)对归一化图进行缩放和偏移,有效地将 指定的目标风格注入到该层的特征中。
StyleGAN 合成网络 () 的图示。中间潜在 通过 AdaIN 层控制风格,独立的噪声输入在不同分辨率下添加随机细节。
通过在合成网络中每个卷积层(或块)之后应用 AdaIN,StyleGAN 使用单个潜在向量 控制不同尺度下表示的视觉风格特征(如配色方案、纹理、光照)。常数输入确保网络从头开始学习所有空间信息,仅由 的风格输入和注入的噪声引导。
这种架构促进解缠,因为映射网络 可以学习将 映射到一个缠结更少的 空间,且合成网络 通过 AdaIN 全局使用 ,而不仅仅是在输入层。这种结构有助于实现强大的控制机制:
风格混合: 在训练期间,一部分图像使用两个不同的中间潜在代码 和 生成。一个代码 () 控制一部分层的风格(例如,粗糙空间分辨率,4x4 到 8x8),而另一个代码 () 控制其余层的风格(例如,更精细的分辨率,16x16 到 1024x1024)。这种技术鼓励网络将风格控制定位于特定的层子集,并防止它假设不同层次风格之间的关联。在推理 (inference)时,这允许创造性地混合风格:从由 生成的图像中获取粗糙结构(姿态、脸型),并将其与由 生成的图像中的更精细细节(头发纹理、肤色)结合。
感知路径长度 (PPL) 正则化 (regularization): StyleGAN 训练常常包含一个正则化项,鼓励从 到图像空间的映射平滑。 中微小的变化应对应生成图像中微小的感知变化,这会进一步改善解缠效果和插值质量。(PPL 在第5章评估部分有更多介绍。)
截断技巧: 尽管并非 StyleGAN 独有,但在这里它常被有效使用。通过采样 向量 (vector),然后将它们移向平均 (根据许多样本计算得出),可以用多样性换取平均样本质量。这通过公式 完成,其中 是平均 , 是截断系数。较小的 会提高保真度但减少多样性。
总之,StyleGAN 架构凭借其映射网络、基于 AdaIN 的风格调制、噪声注入和常数输入,提供了一个生成高分辨率、高质量图像的强大框架,在风格属性控制方面相比之前的 GAN 架构有大为改善。它为 StyleGAN2 和其他先进生成模型的后续发展提供了重要的起始点。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造