趋近智
训练生成对抗网络 (GAN)常被形容为一场细致的平衡。生成器()和判别器()被锁定在一场竞争性博弈中,正式来说是一个零和博弈,即一个网络的收益是另一个网络的损失。目的是找到纳什均衡,这是一种任一玩家通过单方面改变策略都无法改善自身结果的状态。然而,在神经网络 (neural network)参数 (parameter)的高维非凸空间中找到这种均衡是公认的难题。在此审视GAN训练中遇到的主要困难。
最主要的困难是训练过程可能就是无法收敛。和的更新是基于从各自损失函数 (loss function)中推导出的梯度。在标准极小极大博弈公式中:
和的梯度下降 (gradient descent)更新并非总是导向预期的均衡状态。请考虑以下情况:
这种缺乏稳定的收敛性意味着和的损失曲线在训练期间经常大幅波动,其本身不一定表示样本质量正在提高。
模式崩溃可能是GAN训练中最广为人知的失败模式。当生成器只学习生成真实数据分布中可能输出的一小部分时,就会发生这种情况。没有捕捉训练数据的完整多样性,而是找到一个或几个“模式”(输出类型),这些模式在欺骗当前判别器方面特别有效,并专门生成这些。
想象一下在手写数字MNIST数据集上训练一个GAN。理想情况下,应该学习生成0到9所有数字的真实图像。在模式崩溃的情形下,最终可能只生成看起来像数字'1'的图像,或者可能是'1'和'7',完全忽略其他数字。即使生成的'1'高度真实并能欺骗,生成器也未能学习到真实的潜在数据分布。
为什么会发生? 的目标是最小化其损失,这通常表现为最大化将其输出分类为真实的概率。如果发现一个持续误分类的输出,它有很强的动机持续生成该输出的变体。研究输出空间的其他部分可能风险更高,并在初期导致更高的损失。这导致“坍缩”到少数几个安全的模式上。
模式崩溃可以是部分(缺少某些模式)或完全的(只生成一种类型的输出)。它表明没有学习到真实数据中的复杂性和多样性。
模式崩溃的示例。真实数据有两个明显的模式(蓝色和绿色簇),但生成器(红色叉)只学习生成对应于第一个模式的样本。
GAN训练可能高度不稳定。和的参数 (parameter)可能会剧烈波动而非平稳收敛。这种不稳定性通常表现为:
主要问题仍然是平衡训练动态的困难。如果相对于更新过快,它可能会迅速抓住的弱点,可能导致模式崩溃。如果更新过快,它可能会抑制的学习信号。这需要仔细调整,并且通常涉及启发式方法或架构限制(如DCGAN中引入的,稍后讨论)来稳定过程。
GAN的对抗性质在反向传播 (backpropagation)过程中可能导致特定的梯度问题:
与典型的监督学习 (supervised learning)任务中损失下降通常表示模型正在改进不同,GAN训练中和的损失曲线通常是图像质量或多样性的不良指标。的损失可能下降是因为它变得更好了,或者是因为崩溃并生成了易于检测的伪造品。的损失可能下降是因为它成功欺骗了弱的,不一定是因为它正在生成真正真实的图像。
这种缺乏可靠、可解释的损失指标使得难以:
因此,评估GAN通常依赖于对生成样本的目视检查以及旨在评估质量和多样性的定量指标,例如Fréchet Inception 距离(FID)和Inception 分数(IS)。这些指标将在本章后面介绍,它们提供更有意义的评估,但通常是离线计算,并且在训练循环本身期间不提供实时反馈。
解决这些挑战一直是GAN研究的一个主要关注点,导致损失函数 (loss function)、正则化 (regularization)技术、架构设计和训练过程的众多改进,一些内容我们将在后续章节中查看。理解这些潜在困难是成功训练您自己生成模型的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•