趋近智
生成对抗网络(GAN)潜在空间的知识对于控制生成过程十分重要。尽管生成器学习了一个从简单先验分布(通常是标准高斯分布)到高维数据分布的复杂映射,但这个潜在空间的结构包含了调整合成输出的主要特性。对这个空间的分析使我们能够超越随机采样,有目的地引导生成符合预期特性。
在标准GAN中,潜在空间常表现出显著的纠缠。这意味着改变潜在向量的单个维度,很少只对应于生成图像中一个独特视觉属性的变化。相反,多个特征可能会以不直观的方式同时改变。这使得精确控制变得困难。
StyleGAN等高级架构通过使用映射网络引入了中间潜在空间,特别是空间。该网络将初始高斯潜在向量转换为新的向量。然后生成器主要使用(或从派生的样式)进行操作。这样做的一个主要目的是创建一个更解耦的潜在空间。由于映射网络是习得的,它可能将初始各向同性高斯分布扭曲成一个空间,其中沿其轴线的变化能更好地对应于数据中不同的语义变化因素。
例如,在一个经过面部训练的StyleGAN中,理想情况下,中可能存在主要对应发型、年龄或表情变化的维度,而对其他属性的影响很小。StyleGAN通过允许不同的向量控制合成网络的不同层(样式),进一步引入了空间,从而实现样式混合和更大的控制,尽管这可能以偏离映射网络学习到的分布为代价。
一种常用的潜在空间考察技术是两个潜在向量和(或和)之间的插值。生成沿着这些向量之间路径上各点的图像可以显示生成器如何表示相应图像和之间的变化。
线性插值是最简单的方法:
对于也类似:
随着从0变化到1,生成图像或会产生一系列中间图像。
虽然直接,但在初始空间中的线性插值有时会产生不太平滑或视觉上不协调的过渡。这是因为生成器映射是高度非线性的,中的一条直线可能映射到数据流形中复杂弯曲的路径。一个替代方法是球面线性插值(slerp),它沿着超球面上大圆弧保持恒定速度,可能会产生更平滑的过渡,尤其是在向量被归一化的情况下:
这里 是向量之间的角度。
在StyleGAN的空间中进行的插值通常会产生好得多的结果。学习到的映射旨在使在感知上更对齐,因此中的线性路径往往比中的路径带来输出图像中更有意义的语义变化。
插值是在特定点之间移动,但我们通常希望沿着特定的语义轴编辑图像,例如“增加年龄”或“添加太阳镜”。这要求我们确定潜在空间(通常优选)中与这些属性对应的方向(向量)。
存在几种方法可以找出这些方向:
有监督方法: 如果您有属性标签(无论是在训练数据中,还是从应用于生成图像的外部预训练分类器获得),您可以直接在潜在向量()上训练一个简单模型,通常是线性支持向量机(SVM)或逻辑回归,以预测这些属性。对于二元属性(例如,眼镜与无眼镜),空间中线性决策边界的法向量通常可作为方向向量。沿着此方向移动潜在向量()往往会修改中相应的属性。
无监督方法: 将主成分分析(PCA)应用于大量向量样本可以找出最大方差的方向。这些主成分有时会与模型捕捉到的主要语义属性对齐,尽管没有保证。
专门方法: 研究已产生专门设计用于找出解耦方向的方法。例如,GANSpace在特定生成器层的特征空间中应用PCA,而非直接在中。InterfaceGAN则明确地提出在潜在空间内为属性分类找出边界法向量。这些方法通常提供更可靠的语义控制。
潜在空间调整在编辑现有真实图像方面特别强大。这通常涉及一个两步过程:
GAN反演(投影): 给定一个真实图像,找出潜在向量,使得生成的图像与非常接近。这通常被表达为一个优化问题:
这里,表示一个损失函数,通常是像素级损失(L2)和感知损失(例如,使用VGG特征)的组合。是一个正则化项,鼓励“行为良好”或更符合的学习分布,有时与其到向量均值的距离有关,或者在使用时惩罚偏差。此优化可能计算量大。一些方法会训练一个显式编码器来近似反演。
潜在代码编辑: 一旦找到,应用一个语义方向向量(使用前面描述的方法确定)以获得编辑后的潜在代码:
标量控制编辑的强度和方向(例如,正添加眼镜,负移除眼镜)。
生成: 生成最终的编辑图像:。
该图示说明了使用GAN反演和潜在空间调整来编辑真实图像的过程。首先对真实图像进行反演以找出其相应的潜在代码()。然后将此代码沿着预定义的语义方向(例如,改变年龄)移动以获得。最后,生成器从生成编辑后的图像。
虽然强大,但潜在空间调整面临挑战:
总而言之,对GAN潜在空间,特别是StyleGAN中等中间空间的分析和调整,为控制图像合成提供了强大的工具。从简单插值到通过确定方向向量进行目标语义编辑的各种技术,使得生成变体、考察GAN学习到的表示,甚至编辑真实图像成为可能。理解这些技术及其局限性对于有效运用高级GAN架构非常必要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造