趋近智
首页
博客
课程
大模型
中
所有课程
大语言模型实用量化技术
章节 1: 模型量化原理
模型压缩简介
为何对大型语言模型进行量化?
数值表示:浮点数与定点数
量化中的整数数据类型
量化方案:对称量化与非对称量化
量化粒度选择
量化误差的度量
量化方法的概述
章节 2: 训练后量化 (PTQ)
训练后量化原理
校准:选择有代表性的数据
静态量化与动态量化
常见的 PTQ 算法
处理 PTQ 中的异常值
将PTQ应用于LLM层
基础PTQ的局限性
动手实践:应用静态PTQ
章节 3: 进阶PTQ技术
GPTQ介绍
理解 GPTQ 算法机制
AWQ:激活感知权重量化
SmoothQuant:减轻激活离群值
高级PTQ方法比较
高级PTQ的实施考量
动手实践:使用 GPTQ 进行量化
章节 4: 量化感知训练 (QAT)
量化感知训练的必要性
训练期间模拟量化影响
直通估计器 (STE)
使用深度学习框架实现量化感知训练
使用量化节点微调模型
QAT 与 PTQ 的优缺点对比
QAT实施中的实际考量
动手实践:搭建简单量化感知训练运行环境
章节 5: 量化格式与工具
常见量化模型格式概述
GGUF:结构与使用
GPTQ格式:库支持与应用
AWQ 格式说明
使用 Hugging Face Transformers 和 Optimum
使用bitsandbytes进行量化
模型转换与加载工具
实践:转换和加载量化格式
章节 6: 量化大型语言模型的评估与部署
量化模型评估指标
衡量推理速度和内存占用
量化推理的硬件考量
量化大型语言模型的部署策略
常见量化问题排查
准确性与性能权衡分析
实践:量化大型语言模型的基准测试
将PTQ应用于LLM层
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
将PTQ应用于线性层和嵌入层LLM