所有课程

量化大型语言模型的高效部署与推理

章节 1: 高级LLM量化基本原理

重温大型模型量化基本原理

低比特量化技术（低于INT8）

理解量化数据类型和格式

大型语言模型的训练后量化 (PTQ) 算法

量化感知训练 (QAT) 的考量

混合精度量化方法

校准数据的选择与准备

动手实践：将GPTQ应用于LLM

章节 2: 使用工具包实现大型语言模型量化

LLM量化库概览

使用 bitsandbytes 进行低位操作

使用 Hugging Face Transformers 和 Accelerate 实现量化

使用 AutoGPTQ 应用 GPTQ

使用 AutoAWQ 应用 AWQ

比较工具包的输出和性能

处理模型兼容性问题

实践：使用多种工具包量化模型

章节 3: 量化大语言模型的性能评估

量化模型评估指标

衡量推理延迟和吞吐量

评估内存占用（磁盘和运行时）

评估精度下降

基准测试框架与工具

目标硬件上的性能分析

可视化性能权衡

动手实践：量化大型语言模型的基准测试

章节 4: 优化和部署量化大语言模型

量化后的推理优化技术

选择合适的部署框架

使用文本生成推理 (TGI) 进行部署

借助 vLLM 实现高吞吐量推理

使用 NVIDIA TensorRT-LLM 进行 GPU 优化

使用ONNX Runtime进行部署

容器化与扩展策略

监控已部署的量化模型

动手实操：通过推理服务器部署

章节 5: 应对进阶难点

缓解低比特量化中的精度损失

处理激活和权重的离群值

量化特定LLM组成部分（注意力机制、归一化）

硬件限制与内核支持

动态量化与静态量化的权衡

量化问题调试

将量化模型整合到生产管线中

实践：微调量化参数

低比特量化技术（低于INT8）

这部分内容有帮助吗？

参考文献

QLoRA: Efficient Finetuning of Quantized LLMs on Consumer GPUs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint DOI: 10.48550/arXiv.2305.14314 - 介绍NF4，一种针对特定权重分布优化的4比特NormalFloat量化方法，以及LLM的高效微调技术。
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh, 2022 ICLR 2023 DOI: 10.48550/arXiv.2210.17323 - 描述了一种用于LLM精确4比特后训练量化的算法，旨在保持模型准确性。
A Survey of Quantization Methods for Efficient Neural Network Inference, Yu Wang, Zhaohui Li, Xiaoming Liu, Xiaofeng Shi, Hongyan Liu, Xin Li, 2023 ACM Computing Surveys, Vol. 55 (Association for Computing Machinery) DOI: 10.1145/3547348 - 对神经网络高效推理的各种量化技术进行全面概述，与不同比特深度和后训练方法相关。

© 2025 ApX Machine Learning用心打造