所有课程

量化大型语言模型的高效部署与推理

章节 1: 高级LLM量化基本原理

重温大型模型量化基本原理

低比特量化技术（低于INT8）

理解量化数据类型和格式

大型语言模型的训练后量化 (PTQ) 算法

量化感知训练 (QAT) 的考量

混合精度量化方法

校准数据的选择与准备

动手实践：将GPTQ应用于LLM

章节 2: 使用工具包实现大型语言模型量化

LLM量化库概览

使用 bitsandbytes 进行低位操作

使用 Hugging Face Transformers 和 Accelerate 实现量化

使用 AutoGPTQ 应用 GPTQ

使用 AutoAWQ 应用 AWQ

比较工具包的输出和性能

处理模型兼容性问题

实践：使用多种工具包量化模型

章节 3: 量化大语言模型的性能评估

量化模型评估指标

衡量推理延迟和吞吐量

评估内存占用（磁盘和运行时）

评估精度下降

基准测试框架与工具

目标硬件上的性能分析

可视化性能权衡

动手实践：量化大型语言模型的基准测试

章节 4: 优化和部署量化大语言模型

量化后的推理优化技术

选择合适的部署框架

使用文本生成推理 (TGI) 进行部署

借助 vLLM 实现高吞吐量推理

使用 NVIDIA TensorRT-LLM 进行 GPU 优化

使用ONNX Runtime进行部署

容器化与扩展策略

监控已部署的量化模型

动手实操：通过推理服务器部署

章节 5: 应对进阶难点

缓解低比特量化中的精度损失

处理激活和权重的离群值

量化特定LLM组成部分（注意力机制、归一化）

硬件限制与内核支持

动态量化与静态量化的权衡

量化问题调试

将量化模型整合到生产管线中

实践：微调量化参数

大型语言模型的训练后量化 (PTQ) 算法

这部分内容有帮助吗？

参考文献

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkaneh, Jerry Zhao, Sabine M. Fathi, Shuo Yang, Siddarth Malreddy, Artem Gorevoy, Daniel Adiwardana, Jonathan Herzig, Daniel N. Gillman, Oleg Rybakov, Adam Roberts, David R. So, Shivani Agrawal, Sharan Narang, Michael S. Duke, William J. Dally, Hattie Zhou, James Bradbury, Matthew Buddy, Brian Catanzaro, Michael G. Mozer, Somasekhar Vemuri, Wojciech Zaremba, Alon Halevy, Robert Schapire, 2022 arXiv preprint arXiv:2210.01730 DOI: https://doi.org/10.48550/arXiv.2210.01730 - 介绍了GPTQ算法，这是一种针对LLM的分层、误差补偿型训练后量化方法，旨在以最小的精度损失实现低比特量化。
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han, 2023 arXiv preprint arXiv:2306.00978 DOI: 10.48550/arXiv.2306.00978 - 提出了AWQ算法，一种根据激活幅度缩放权重以保护重要权重的训练后量化方法，为LLM提供了一种快速准确的解决方案。
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han, 2023 ICML 2023 DOI: 10.48550/arXiv.2211.10438 - 介绍了SmoothQuant算法，该算法通过逐通道重新缩放来解决LLM中的激活异常值问题，从而实现更精确的低比特量化。

© 2025 ApX Machine Learning用心打造