趋近智
首页
博客
课程
大模型
中
所有课程
量化大型语言模型的高效部署与推理
章节 1: 高级LLM量化基本原理
重温大型模型量化基本原理
低比特量化技术(低于INT8)
理解量化数据类型和格式
大型语言模型的训练后量化 (PTQ) 算法
量化感知训练 (QAT) 的考量
混合精度量化方法
校准数据的选择与准备
动手实践:将GPTQ应用于LLM
章节 2: 使用工具包实现大型语言模型量化
LLM量化库概览
使用 bitsandbytes 进行低位操作
使用 Hugging Face Transformers 和 Accelerate 实现量化
使用 AutoGPTQ 应用 GPTQ
使用 AutoAWQ 应用 AWQ
比较工具包的输出和性能
处理模型兼容性问题
实践:使用多种工具包量化模型
章节 3: 量化大语言模型的性能评估
量化模型评估指标
衡量推理延迟和吞吐量
评估内存占用(磁盘和运行时)
评估精度下降
基准测试框架与工具
目标硬件上的性能分析
可视化性能权衡
动手实践:量化大型语言模型的基准测试
章节 4: 优化和部署量化大语言模型
量化后的推理优化技术
选择合适的部署框架
使用文本生成推理 (TGI) 进行部署
借助 vLLM 实现高吞吐量推理
使用 NVIDIA TensorRT-LLM 进行 GPU 优化
使用ONNX Runtime进行部署
容器化与扩展策略
监控已部署的量化模型
动手实操:通过推理服务器部署
章节 5: 应对进阶难点
缓解低比特量化中的精度损失
处理激活和权重的离群值
量化特定LLM组成部分(注意力机制、归一化)
硬件限制与内核支持
动态量化与静态量化的权衡
量化问题调试
将量化模型整合到生产管线中
实践:微调量化参数
使用 AutoAWQ 应用 AWQ
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
使用 AutoAWQ 库