所有课程

大语言模型实用量化技术

章节 1: 模型量化原理

模型压缩简介

为何对大型语言模型进行量化？

数值表示：浮点数与定点数

量化中的整数数据类型

量化方案：对称量化与非对称量化

量化粒度选择

量化误差的度量

量化方法的概述

第 1 章测验

章节 2: 训练后量化 (PTQ)

训练后量化原理

校准：选择有代表性的数据

静态量化与动态量化

常见的 PTQ 算法

处理 PTQ 中的异常值

将PTQ应用于LLM层

基础PTQ的局限性

动手实践：应用静态PTQ

第 2 章测验

章节 3: 进阶PTQ技术

理解 GPTQ 算法机制

AWQ：激活感知权重量化

SmoothQuant：减轻激活离群值

高级PTQ方法比较

高级PTQ的实施考量

动手实践：使用 GPTQ 进行量化

第 3 章测验

章节 4: 量化感知训练 (QAT)

量化感知训练的必要性

训练期间模拟量化影响

直通估计器 (STE)

使用深度学习框架实现量化感知训练

使用量化节点微调模型

QAT 与 PTQ 的优缺点对比

QAT实施中的实际考量

动手实践：搭建简单量化感知训练运行环境

第 4 章测验

章节 5: 量化格式与工具

常见量化模型格式概述

GGUF：结构与使用

GPTQ格式：库支持与应用

AWQ 格式说明

使用 Hugging Face Transformers 和 Optimum

使用bitsandbytes进行量化

模型转换与加载工具

实践：转换和加载量化格式

第 5 章测验

章节 6: 量化大型语言模型的评估与部署

量化模型评估指标

衡量推理速度和内存占用

量化推理的硬件考量

量化大型语言模型的部署策略

常见量化问题排查

准确性与性能权衡分析

实践：量化大型语言模型的基准测试

第 6 章测验

量化中的整数数据类型

这部分内容有帮助吗？

参考文献

Quantization and Training of Neural Networks for Efficient Inference, Benoit Jacob, Skirmantas Kligys, Shengkuan Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, Dmitry Kalenichenko, Vivienne Sze, 2018 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE) DOI: 10.1109/CVPR.2018.00696 - 介绍了广泛采用的8位整数训练后量化方法，为许多实际应用奠定了基础。
Quantization for PyTorch Models, PyTorch Documentation, 2024 (PyTorch) - 官方文档，解释了流行的深度学习框架中量化的实现方式，包括对各种整数类型的支持。

© 2025 ApX Machine Learning用心打造