All Courses

Advanced CNNs for Computer Vision Applications

Chapter 1: Revisiting CNN Foundations and Modern Architectures

Brief Review of CNN Building Blocks

Evolution of CNN Architectures: AlexNet to ResNet

Understanding Residual Connections and Skip Architectures

Inception Modules and Network-in-Network Concepts

DenseNet: Architecture and Connectivity Patterns

EfficientNet: Compound Scaling for Models

Architectural Design Choices and Trade-offs

Implementing Modern Architectures Practice

Chapter 2: Advanced Training and Optimization Techniques

Advanced Optimization Algorithms

Learning Rate Schedules and Cyclical Learning Rates

Regularization Revisited: Advanced Techniques

Batch Normalization Internals and Alternatives

Weight Initialization Strategies for Deep Networks

Gradient Clipping and Gradient Flow Mitigation

Mixed Precision Training Fundamentals

Debugging and Monitoring Deep CNN Training

Hands-on Practical: Implementing Advanced Training Loops

Chapter 3: Object Detection Algorithms

Two-Stage Detectors: R-CNN Family

Region Proposal Networks Explained

Single-Stage Detectors: YOLO Family

Single-Stage Detectors: SSD and RetinaNet

Anchor Boxes: Design and Refinement

Non-Maximum Suppression Variants

Evaluation Metrics for Object Detection

Implementing an Object Detector Practice

Chapter 4: Image Segmentation Techniques

Semantic Segmentation vs. Instance Segmentation

Fully Convolutional Networks for Segmentation

Encoder-Decoder Architectures: U-Net and SegNet

Dilated (Atrous) Convolutions for Segmentation

DeepLab Family: Atrous Spatial Pyramid Pooling

Instance Segmentation Approaches (Mask R-CNN)

Evaluation Metrics for Segmentation

Hands-on Practical: Building a Semantic Segmentation Model

Chapter 5: Attention Mechanisms and Transformers in Vision

Self-Attention Mechanisms in CNNs

Non-local Neural Networks

Introduction to Vision Transformers

ViT Architecture: Patches, Embeddings, Transformer Encoder

Hybrid CNN-Transformer Models

Comparing CNNs and Transformers for Vision Tasks

Implementing Attention Blocks in CNNs Practice

Chapter 6: Advanced Transfer Learning and Domain Adaptation

Revisiting Transfer Learning Strategies

Fine-tuning vs. Feature Extraction: Advanced Considerations

Adapting Models to Different Data Distributions

Domain Generalization Concepts

Few-Shot Learning with CNNs

Self-Supervised Learning Pre-training for Vision

Hands-on Practical: Fine-tuning Models on Specialized Datasets

Chapter 7: Generative Adversarial Networks for Image Synthesis

GAN Fundamentals Revisited

Challenges in Training GANs

Deep Convolutional GANs (DCGANs)

Conditional GANs for Controlled Generation

StyleGAN Architecture and Style-Based Generation

Evaluation Metrics for GANs

Implementing a DCGAN for Image Generation Practice

Chapter 8: Model Compression and Efficient Deep Learning

Motivation for Efficient Models

Network Pruning Techniques

Knowledge Distillation Methods

Quantization: Reducing Model Precision

Designing Efficient Architectures

Neural Architecture Search Overview

Hands-on Practical: Applying Pruning and Quantization

Single-Stage Detectors: SSD and RetinaNet

Was this section helpful?

References

SSD: Single Shot MultiBox Detector, Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, 2016 European Conference on Computer Vision (ECCV) DOI: 10.1007/978-3-319-46448-0_2 - The original paper introducing the Single Shot MultiBox Detector (SSD) architecture, detailing its multi-scale feature maps, default boxes, and training strategy for fast object detection.
Focal Loss for Dense Object Detection, Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár, 2017 IEEE International Conference on Computer Vision (ICCV) DOI: 10.48550/arXiv.1708.02002 - This paper introduces RetinaNet, a single-stage detector, and the Focal Loss function, designed to address the severe class imbalance problem inherent in dense object detection.
Feature Pyramid Networks for Object Detection, Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) DOI: 10.48550/arXiv.1612.03144 - Describes the Feature Pyramid Network (FPN) architecture, which constructs a multi-scale feature pyramid from a single-resolution input, a component often employed with RetinaNet to improve detection across scales.

© 2025 ApX Machine LearningEngineered with