所有课程

量化大型语言模型的高效部署与推理

章节 1: 高级LLM量化基本原理

重温大型模型量化基本原理

低比特量化技术（低于INT8）

理解量化数据类型和格式

大型语言模型的训练后量化 (PTQ) 算法

量化感知训练 (QAT) 的考量

混合精度量化方法

校准数据的选择与准备

动手实践：将GPTQ应用于LLM

章节 2: 使用工具包实现大型语言模型量化

LLM量化库概览

使用 bitsandbytes 进行低位操作

使用 Hugging Face Transformers 和 Accelerate 实现量化

使用 AutoGPTQ 应用 GPTQ

使用 AutoAWQ 应用 AWQ

比较工具包的输出和性能

处理模型兼容性问题

实践：使用多种工具包量化模型

章节 3: 量化大语言模型的性能评估

量化模型评估指标

衡量推理延迟和吞吐量

评估内存占用（磁盘和运行时）

评估精度下降

基准测试框架与工具

目标硬件上的性能分析

可视化性能权衡

动手实践：量化大型语言模型的基准测试

章节 4: 优化和部署量化大语言模型

量化后的推理优化技术

选择合适的部署框架

使用文本生成推理 (TGI) 进行部署

借助 vLLM 实现高吞吐量推理

使用 NVIDIA TensorRT-LLM 进行 GPU 优化

使用ONNX Runtime进行部署

容器化与扩展策略

监控已部署的量化模型

动手实操：通过推理服务器部署

章节 5: 应对进阶难点

缓解低比特量化中的精度损失

处理激活和权重的离群值

量化特定LLM组成部分（注意力机制、归一化）

硬件限制与内核支持

动态量化与静态量化的权衡

量化问题调试

将量化模型整合到生产管线中

实践：微调量化参数

量化后的推理优化技术

这部分内容有帮助吗？

参考文献

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Aware Operators, Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré, 2022 Advances in Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2205.14135 - 介绍了FlashAttention算法，通过重新排序计算和最小化内存I/O，显著提高了注意力机制的速度和内存效率，对LLM尤其重要。
vLLM: Universal and Efficient Engine for Large Language Model Inference, Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica, 2023 SOSP 2023 DOI: 10.48550/arXiv.2309.06180 - 介绍了PagedAttention，一种关键的内存管理技术，可优化KV缓存使用，从而在LLM推理中实现更高的吞吐量并减少内存碎片。
QLoRA: Efficient Finetuning of Quantized LLMs on Consumer GPUs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - 详细介绍了QLoRA方法，该方法依赖4位NormalFloat (NF4) 量化，并包含通过bitsandbytes等库实现的优化CUDA内核，用于量化模型的有效计算。
NVIDIA TensorRT Documentation, NVIDIA Corporation, 2024 (NVIDIA) - 提供了TensorRT中使用的优化技术信息，包括内核融合、图优化和硬件专用调整，这些技术应用于量化模型以实现高效部署。

© 2025 ApX Machine Learning用心打造