所有课程

量化大型语言模型的高效部署与推理

章节 1: 高级LLM量化基本原理

重温大型模型量化基本原理

低比特量化技术（低于INT8）

理解量化数据类型和格式

大型语言模型的训练后量化 (PTQ) 算法

量化感知训练 (QAT) 的考量

混合精度量化方法

校准数据的选择与准备

动手实践：将GPTQ应用于LLM

章节 2: 使用工具包实现大型语言模型量化

LLM量化库概览

使用 bitsandbytes 进行低位操作

使用 Hugging Face Transformers 和 Accelerate 实现量化

使用 AutoGPTQ 应用 GPTQ

使用 AutoAWQ 应用 AWQ

比较工具包的输出和性能

处理模型兼容性问题

实践：使用多种工具包量化模型

章节 3: 量化大语言模型的性能评估

量化模型评估指标

衡量推理延迟和吞吐量

评估内存占用（磁盘和运行时）

评估精度下降

基准测试框架与工具

目标硬件上的性能分析

可视化性能权衡

动手实践：量化大型语言模型的基准测试

章节 4: 优化和部署量化大语言模型

量化后的推理优化技术

选择合适的部署框架

使用文本生成推理 (TGI) 进行部署

借助 vLLM 实现高吞吐量推理

使用 NVIDIA TensorRT-LLM 进行 GPU 优化

使用ONNX Runtime进行部署

容器化与扩展策略

监控已部署的量化模型

动手实操：通过推理服务器部署

章节 5: 应对进阶难点

缓解低比特量化中的精度损失

处理激活和权重的离群值

量化特定LLM组成部分（注意力机制、归一化）

硬件限制与内核支持

动态量化与静态量化的权衡

量化问题调试

将量化模型整合到生产管线中

实践：微调量化参数

理解量化数据类型和格式

这部分内容有帮助吗？

参考文献

QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - 介绍了QLoRA，一种使用4位NormalFloat (NF4) 量化和双重量化的内存高效微调方法。
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkboos, Maximilian Seidl, Sebastian P. Stich, Torsten Hoefler, 2022 arXiv preprint arXiv:2210.01730 DOI: 10.48550/arXiv.2210.01730 - 介绍了GPTQ，一种针对LLMs的高效训练后量化方法，主要针对4位整数权重。
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, 2023 MLSys 2024 DOI: 10.48550/arXiv.2306.00978 - 提出了AWQ，一种激活感知的权重量化方法，根据权重对激活异常值的影响选择性地进行量化，在低位LLM推理中表现出良好的准确性。
Transformer Engine: A Unified Deep Learning Acceleration Library for Transformers, Oleg Kuchaiev, Jianyu Huang, Brian Catanzaro, 2022 arXiv preprint arXiv:2209.05193 DOI: 10.48550/arXiv.2209.05193 - 描述了NVIDIA Transformer Engine，它支持高效的大模型训练和推理，包括使用8位浮点（FP8）格式处理激活和权重。

© 2026 ApX Machine Learning用心打造