常见的训练不稳定现象

虽然生成器 ( $G$ ) 和判别器 ( $D$ ) 之间的极小极大博弈提供了一个强有力的理论体系，但在实践中实现稳定的平衡点极具挑战性。与我们最小化单个表现良好的损失函数 (loss function)的典型监督学习 (supervised learning)问题不同，GAN训练涉及在一个复杂、高维、非凸的博弈中寻找纳什均衡。这种动态的相互作用常导致几种常见的训练不稳定现象，这些现象困扰了早期GAN的发展，并持续成为活跃的研究方向。在审视旨在减轻这些问题的高级技术之前，了解这些问题是不可或缺的。

模式崩溃

也许最常遇到和讨论的不稳定现象是模式崩溃。当生成器未能捕捉到真实数据分布 ( $P_{data}$ ) 的全部多样性，而是只生成了有限的输出子集时，就会发生这种情况，有时甚至会坍缩到单一的输出类型，无论输入噪声向量 (vector) $z$ 如何。

设想在MNIST手写数字数据集上训练GAN。严重的模式崩溃可能导致生成器只生成类似数字“1”的图像，完全忽略了“0”以及“2”到“9”。轻微的模式崩溃可能只生成少数几种不同的数字。

为什么会发生这种情况？ 模式崩溃通常发生在生成器找到少数几种特定输出时，这些输出在欺骗当前判别器方面特别有效。如果判别器暂时变得过于强大，或者优化动态将生成器推向这些“安全区”，生成器可能会对这些特定输出进行过度优化。它会学习到，例如，生成一个尚可的“1”比尝试一个更复杂的数字（如“8”）却失败，更不容易被判别器惩罚。一旦生成器固定在这些有限的模式上，训练过程就很难鼓励它去生成数据分布的其他部分。生成器本质上放弃了多样性，以最小化其对抗判别器的即时损失。

模式崩溃示意图。生成器 ( $G$ ) 将多样的潜在空间 ( $Z$ ) 映射到真实数据分布 ( $P_{data}$ ) 中存在的变体的仅一小部分（此处显示为单一模式）。

模式崩溃的后果是生成器产生低多样性、重复的样本，未能达到建模真实潜在数据分布的主要目标。

梯度消失

另一个重要挑战，尤其是在使用sigmoid交叉熵损失的原始GAN设定中普遍存在，是梯度消失问题。当判别器过快地变得过于熟练时，就会发生这种情况。

考虑生成器的损失函数 (loss function)，通常与最小化 $\log(1 - D(G(z)))$ 相关。如果判别器 $D$ 变得非常有效，它可以很容易地区分真实样本和虚假样本。对于虚假样本 $G(z)$ ， $D(G(z))$ 将接近于0（以高置信度表示“虚假”）。当 $D(G(z))$ 趋近于0时，函数 $\log(1 - D(G(z)))$ 达到饱和。也就是说，即使 $D(G(z))$ 略微变化，其值也几乎不变。

从数学上看，这个损失项相对于生成器参数 (parameter)的梯度变得极小。

\nabla_{\theta_g} \log(1 - D_{\phi}(G_{\theta_g}(z)))

当 $D_{\phi}(G_{\theta_g}(z)) \approx 0$ 时，这个梯度趋近于零。

会有什么影响？ 当梯度消失时，生成器几乎收不到判别器关于如何改进其输出的信息信号。即使生成的样本很差，微小的梯度意味着生成器的权重 (weight)更新极少，实际上停止了生成器的学习过程。判别器可能会继续改进，使问题变得更糟。

这不同于有时在非常深的网络中由于激活函数 (activation function)或初始化而出现的梯度消失；在这里，它是极小极大博弈动态以及当一个参与者明显优于另一个时损失函数选择的直接结果。

不收敛和震荡

GAN训练并非平稳地收敛到一个平衡点（即生成器产生逼真的样本，判别器不确定，即 $D(x) \approx 0.5$ ， $D(G(z)) \approx 0.5$ ），而是可能表现出震荡行为或完全无法收敛。

生成器和判别器的损失值在训练迭代中可能会剧烈波动，一个网络的改进可能对应于另一个网络损失的增加，从而阻碍了稳定的收敛。这是因为优化问题不是固定的；随着生成器的更新，它改变了判别器试图解决的问题，反之亦然。在这个不断变化的问题中找到一个稳定点（纳什均衡）是很困难的。

GAN训练过程中损失值震荡的示意图，一个网络的改进可能对应于另一个网络损失的增加，从而阻碍了稳定的收敛。

学习率、优化器选择和网络架构等因素能显著影响收敛行为。仅仅监控损失值通常不足以诊断GAN训练的进展，因为在这种对抗性设置中，较低的损失并不总是与更好的样本质量或稳定性直接相关。对生成样本进行定性评估以及使用专门的评估指标（在第五章中讨论）是必需的。

这些不稳定现象表明，训练GAN不仅仅是应用标准的深度学习 (deep learning)优化方法。对抗性质使得需要仔细考虑博弈动态、损失函数 (loss function)、网络架构和优化策略，这促使了我们将在后续章节中研究的高级技术的开发。

这部分内容有帮助吗？

参考文献

Generative Adversarial Nets, Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, 2014 Advances in Neural Information Processing Systems 27 (NIPS 2014), Vol. 27 (Advances in Neural Information Processing Systems) - 提出生成对抗网络概念和对抗训练目标的奠基性论文。
Wasserstein GAN, Martin Arjovsky, Soumith Chintala, and Léon Bottou, 2017 Proceedings of the 34th International Conference on Machine Learning (ICML 2017), Vol. 70 (Proceedings of Machine Learning Research (PMLR)) DOI: 10.5555/3305890.3306013 - 引入 Wasserstein GAN (WGAN) 以解决训练不稳定性，特别是梯度消失问题，方法是使用 Earth Mover's 距离。
Improved Techniques for Training GANs, Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen, 2016 Advances in Neural Information Processing Systems 29 (NIPS 2016) (Curran Associates, Inc.) DOI: 10.48550/arXiv.1606.03498 - 提供了多种技术来改善 GAN 训练稳定性并减轻模式崩溃，例如 mini-batch 判别。
GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Sepp Hochreiter, 2017 Advances in Neural Information Processing Systems, Vol. 30 DOI: 10.48550/arXiv.1706.08500 - 提出了 Two Time-Scale Update Rule (TTUR) 通过为生成器和判别器使用不同的学习率来提高 GAN 的收敛性和稳定性。