All Courses

Advanced GAN techniques

Chapter 1: GAN Foundations Revisited

The Generator-Discriminator Architecture

The Minimax Objective Function

Common Training Instabilities

Limitations of Vanilla GANs

Deep Convolutional GANs (DCGANs) Refresher

Chapter 2: Advanced GAN Architectures

Progressive Growing of GANs (ProGAN)

Style-Based Generator Architecture (StyleGAN)

StyleGAN2 Enhancements

Large Scale GAN Training (BigGAN)

Self-Attention Mechanisms in GANs

Unpaired Image-to-Image Translation (CycleGAN)

Implementing StyleGAN Components: Hands-on Practical

Chapter 3: GAN Training Dynamics and Stabilization

The Challenge of Non-Convergence

Mode Collapse: Causes and Consequences

Alternative Divergences: Wasserstein Distance

Weight Clipping in WGAN

Gradient Penalty (WGAN-GP)

Spectral Normalization

Two Time-Scale Update Rule (TTUR)

Relativistic GANs

Implementing WGAN-GP: Practice

Chapter 4: Conditional and Controllable Generation

Introduction to Conditional GANs (cGANs)

Architectures for cGANs

Information Maximizing GANs (InfoGAN)

StackGAN: Text-to-Image Synthesis

Controlling Attributes via Latent Space Manipulation

Disentanglement Metrics and Challenges

Building a Conditional GAN: Hands-on Practical

Chapter 5: Quantitative and Qualitative Evaluation of GANs

Challenges in Evaluating Generative Models

Qualitative Assessment: Visual Turing Tests

Inception Score (IS): Formulation and Limitations

Fréchet Inception Distance (FID): Formulation

Interpreting FID Scores

Precision and Recall for Distributions

Perceptual Path Length (PPL)

Calculating FID Score: Practice

Chapter 6: GANs Beyond Standard Image Generation

Challenges with Discrete Data: Text Generation

Reinforcement Learning Approaches (SeqGAN, RankGAN)

Continuous Approximations (Gumbel-Softmax)

Audio Synthesis with GANs (WaveGAN, SpecGAN)

Video Generation and Prediction

3D Data Generation (Point Clouds, Meshes)

Graph Generation with GANs

Chapter 7: Implementation, Optimization, and Tooling

Choosing Deep Learning Frameworks

Advanced Optimizers (AdamW, Lookahead)

Hyperparameter Tuning Strategies

Weight Initialization Techniques

Debugging Unstable GAN Training

Mixed Precision Training

Distributed Training Strategies for Large GANs

Profiling and Performance Optimization

Optimizing a GAN Implementation: Practice

StackGAN: Text-to-Image Synthesis

Was this section helpful?

References

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris N. Metaxas, 2017 2017 IEEE International Conference on Computer Vision (IEEE) DOI: 10.1109/ICCV.2017.394 - Presents the original two-stage StackGAN architecture for generating high-resolution images from text descriptions, introducing conditioning augmentation.
StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks, Han Zhang, Tao Xu, Hongxu Ma, Zhiming Liu, Gang Huang, Shaoting Zhang, and Dimitris Metaxas, 2018 International Conference on Learning Representations (ICLR) (OpenReview.net) DOI: 10.48550/arXiv.1710.05465 - Extends the original StackGAN by improving training stability, loss functions, and generator architecture for enhanced text-to-image synthesis.
Conditional Generative Adversarial Nets, Mehdi Mirza and Simon Osindero, 2014 arXiv preprint arXiv:1411.1784 DOI: 10.48550/arXiv.1411.1784 - Introduces the concept of conditional GANs, allowing generation of images based on specific conditions like class labels, a precursor to text-to-image generation.
Generative Adversarial Nets, Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, Yoshua Bengio, 2014 Advances in Neural Information Processing Systems, Vol. 27 (NeurIPS) DOI: 10.48550/arXiv.1406.2661 - This paper introduces Generative Adversarial Networks, a core component of StackGAN and other advanced generation models.

© 2025 ApX Machine LearningEngineered with