All Courses

Advanced Diffusion Model Architectures and Training

Chapter 1: Foundation Review and Advanced Noise Schedules

Recap: Denoising Diffusion Probabilistic Models (DDPM)

Recap: Denoising Diffusion Implicit Models (DDIM)

Mathematical Underpinnings: Score Matching and ODEs

Limitations of Standard Noise Schedules

Designing Custom Noise Schedules

Learned Variance Schedules

Hands-on Practical: Implementing Noise Schedule Variants

Chapter 2: Advanced U-Net Architectures

The Standard U-Net in Diffusion Models

Attention Mechanisms in U-Nets (Self-Attention, Cross-Attention)

Integrating Time Embeddings in U-Nets

Advanced Conditioning Input Integration

Architectural Variants for Efficiency (Depth, Width, Pooling)

Normalization Techniques (GroupNorm, AdaLN)

Hands-on Practical: Modifying a U-Net with Attention

Chapter 3: Transformer-Based Diffusion Models

Motivation for Transformers in Generative Modeling

Adapting Transformers for Image Data (ViT, Patch Embeddings)

Diffusion Transformers (DiT): Architecture Overview

Conditioning in Diffusion Transformers

Comparison: U-Nets vs. Transformers for Diffusion

Implementation Considerations for DiTs

Hands-on Practical: Building a Simple DiT Block

Chapter 4: Advanced Training Techniques

Classifier Guidance: Principles and Implementation

Classifier-Free Guidance (CFG): Theory and Benefits

Implementing and Tuning CFG Scale

Advanced Loss Function Formulations (v-prediction, L_simple)

Model Parameterization (epsilon-prediction vs. x0-prediction)

Techniques for Training Stability (Gradient Clipping, EMA)

Mixed-Precision Training for Diffusion Models

Hands-on Practical: Implementing Classifier-Free Guidance

Chapter 5: Consistency Models

Motivation: The Need for Faster Sampling

Core Idea: Consistency Property

Consistency Model Training: Distillation Approach

Consistency Model Training: Standalone Approach

Sampling from Consistency Models (Single-step and Multi-step)

Architecture Considerations for Consistency Models

Trade-offs: Speed vs. Quality

Hands-on Practical: Basic Consistency Distillation

Chapter 6: Advanced Sampling and Optimization

Higher-Order Solvers (DPM-Solver, UniPC)

Stochastic Sampling Variants

Guided Sampling Refinements

Troubleshooting Sampling Issues (Artifacts, Blurriness)

Model Distillation for Diffusion

Quantization of Diffusion Models

Hardware Acceleration Considerations (GPU Kernels, Compilation)

Hands-on Practical: Comparing Advanced Samplers

Model Distillation for Diffusion

Was this section helpful?

References

Distilling the Knowledge in a Neural Network, Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, 2015 arXiv preprint arXiv:1503.02531 DOI: 10.48550/arXiv.1503.02531 - Introduces the concept of knowledge distillation, where a smaller student model is trained to mimic a larger teacher model's outputs.
Progressive Distillation for Fast Sampling of Diffusion Models, Tim Salimans and Jonathan Ho, 2022 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2202.00512 - Proposes progressive distillation, an iterative method to train diffusion models for faster, few-step sampling by halving the steps at each stage.
Consistency Models, Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever, 2023 ICML 2023 DOI: 10.48550/arXiv.2303.01469 - Introduces consistency models for one-step generation, which can be trained via distillation-like methods or independently to achieve fast sampling.

© 2025 ApX Machine LearningEngineered with