All Courses

Deploying Quantized LLMs for Efficient Inference

Chapter 1: Advanced LLM Quantization Fundamentals

Revisiting Quantization Principles for Large Models

Low-Bit Quantization Techniques (Below INT8)

Understanding Quantization Data Types and Formats

Post-Training Quantization (PTQ) Algorithms for LLMs

Quantization-Aware Training (QAT) Considerations

Mixed-Precision Quantization Strategies

Calibration Data Selection and Preparation

Hands-on Practical: Applying GPTQ to an LLM

Chapter 2: Implementing LLM Quantization with Toolkits

Overview of LLM Quantization Libraries

Using bitsandbytes for Low-Bit Operations

Quantization with Hugging Face Transformers and Accelerate

Applying GPTQ using AutoGPTQ

Applying AWQ using AutoAWQ

Comparing Toolkit Outputs and Performance

Handling Model Compatibility Issues

Practice: Quantizing Models with Multiple Toolkits

Chapter 3: Performance Evaluation of Quantized LLMs

Metrics for Quantized Model Evaluation

Measuring Inference Latency and Throughput

Assessing Memory Consumption (Disk and Runtime)

Evaluating Accuracy Degradation

Benchmarking Frameworks and Tools

Analyzing Performance on Target Hardware

Visualizing Performance Trade-offs

Hands-on Practical: Benchmarking a Quantized LLM

Chapter 4: Optimizing and Deploying Quantized LLMs

Inference Optimization Techniques Post-Quantization

Choosing the Right Deployment Framework

Deploying with Text Generation Inference (TGI)

Leveraging vLLM for High-Throughput Inference

GPU Optimization with NVIDIA TensorRT-LLM

Deployment using ONNX Runtime

Containerization and Scaling Strategies

Monitoring Deployed Quantized Models

Hands-on Practical: Deploying via an Inference Server

Chapter 5: Addressing Advanced Challenges

Mitigating Accuracy Loss in Low-Bit Regimes

Handling Activation and Weight Outliers

Quantizing Specific LLM Components (Attention, Normalization)

Hardware Constraints and Kernel Availability

Dynamic Quantization vs. Static Quantization Trade-offs

Debugging Quantization Issues

Integrating Quantized Models into Production Pipelines

Practice: Fine-tuning Quantization Parameters

Understanding Quantization Data Types and Formats

Was this section helpful?

References

QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - Introduces QLoRA, a memory-efficient finetuning approach that uses 4-bit NormalFloat (NF4) quantization, along with Double Quantization.
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkboos, Maximilian Seidl, Sebastian P. Stich, Torsten Hoefler, 2022 arXiv preprint arXiv:2210.01730 DOI: 10.48550/arXiv.2210.01730 - Presents GPTQ, a highly effective post-training quantization method for LLMs, primarily targeting 4-bit integer weights.
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, 2023 MLSys 2024 DOI: 10.48550/arXiv.2306.00978 - Proposes AWQ, an activation-aware weight quantization method that selectively quantizes weights based on their impact on activation outliers, demonstrating good accuracy for low-bit LLM inference.
Transformer Engine: A Unified Deep Learning Acceleration Library for Transformers, Oleg Kuchaiev, Jianyu Huang, Brian Catanzaro, 2022 arXiv preprint arXiv:2209.05193 DOI: 10.48550/arXiv.2209.05193 - Describes the NVIDIA Transformer Engine, which enables efficient large model training and inference, including the use of 8-bit floating-point (FP8) formats for activations and weights.

© 2025 ApX Machine LearningEngineered with