趋近智
虽然最初的生成对抗网络 (GAN)理念为生成模型引入了开创性的方法,但直接基于极大极小目标函数的“原版”实现很快展现出一些明显的实际局限。这些难题推动了许多研究,从而产生了我们将在本课程中介绍的高级技术。了解这些不足对于理解更复杂架构和训练策略的背后原因非常重要。
GAN的基本思想是生成器()和判别器()之间的对抗性博弈。其原始目标函数源自真实数据分布()与生成数据分布()之间的詹森-香农(JS)散度,理论上设计优美,但在实际应用中迅速暴露出多种明显的局限性。这些挑战推动了后续许多先进技术的研究和发展。认识这些不足有助于理解更复杂架构和训练策略背后的原因。
然而,在实践中训练这种极大极小博弈出了名的困难。
也许最常被提及的局限性是模式崩溃。当生成器找到少数几种特定输出(模式)特别擅长欺骗当前判别器时,就会发生这种情况。生成器不是学习表示训练数据分布的全部多样性,而是只生成这些有限的变体。
想象一下,在手写数字(0-9)数据集上训练GAN。模式崩溃可能表现为生成器只生成可信的“1”和“7”的图像,完全忽略了其他数字。虽然这些生成的样本单独看起来可能很真实,但生成器未能捕捉到底层数据分布。原版GAN的目标函数没有内在地惩罚这种多样性的缺乏,尤其是在判别器可以轻易被这少数几种模式欺骗的情况下。
原版GAN一个重要的实际问题是缺乏可靠的指标来跟踪训练进展。生成器和判别器的损失,源自极大极小目标,在训练期间经常波动,并且与生成样本的感知质量或多样性不一致地相关。
这使得仅凭损失值难以判断何时停止训练,或者不同超参数 (parameter) (hyperparameter)或架构改进的效果如何。目视检查成为主要工具,但这是主观且耗时的。这一局限突显了对更多评估指标的需求,例如Inception Score (IS)和Fréchet Inception Distance (FID),我们将在第5章讨论。
标准GAN框架从随机噪声向量 (vector)生成样本。虽然不同的输入向量会产生不同的输出,但没有直接的方法来控制哪些具体特征或类型的输出被生成。从潜在空间到数据空间的映射是复杂且常纠缠不清的,这意味着改变中的一个维度可能影响输出图像中多个不相关的特征。这种缺乏直接控制的情况推动了条件GAN (cGANs) 和学习解耦表示的方法的开发,这些将在第4章中介绍。
这些局限性——训练不稳定、模式崩溃、进展指标不佳以及缺乏控制——表明,尽管GAN的核心思想强大,但初始形式需要显著的改进。后续章节将探讨为解决这些问题而开发出的解决方案,从而产生了当今更稳定、更有能力、更可控的GAN。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造