所有课程

大语言模型实用量化技术

章节 1: 模型量化原理

模型压缩简介

为何对大型语言模型进行量化？

数值表示：浮点数与定点数

量化中的整数数据类型

量化方案：对称量化与非对称量化

量化粒度选择

量化误差的度量

量化方法的概述

第 1 章测验

章节 2: 训练后量化 (PTQ)

训练后量化原理

校准：选择有代表性的数据

静态量化与动态量化

常见的 PTQ 算法

处理 PTQ 中的异常值

将PTQ应用于LLM层

基础PTQ的局限性

动手实践：应用静态PTQ

第 2 章测验

章节 3: 进阶PTQ技术

理解 GPTQ 算法机制

AWQ：激活感知权重量化

SmoothQuant：减轻激活离群值

高级PTQ方法比较

高级PTQ的实施考量

动手实践：使用 GPTQ 进行量化

第 3 章测验

章节 4: 量化感知训练 (QAT)

量化感知训练的必要性

训练期间模拟量化影响

直通估计器 (STE)

使用深度学习框架实现量化感知训练

使用量化节点微调模型

QAT 与 PTQ 的优缺点对比

QAT实施中的实际考量

动手实践：搭建简单量化感知训练运行环境

第 4 章测验

章节 5: 量化格式与工具

常见量化模型格式概述

GGUF：结构与使用

GPTQ格式：库支持与应用

AWQ 格式说明

使用 Hugging Face Transformers 和 Optimum

使用bitsandbytes进行量化

模型转换与加载工具

实践：转换和加载量化格式

第 5 章测验

章节 6: 量化大型语言模型的评估与部署

量化模型评估指标

衡量推理速度和内存占用

量化推理的硬件考量

量化大型语言模型的部署策略

常见量化问题排查

准确性与性能权衡分析

实践：量化大型语言模型的基准测试

第 6 章测验

QAT 与 PTQ 的优缺点对比

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh, 2023 ICLR 2023 DOI: 10.48550/arXiv.2210.17323 - 这篇论文介绍了 GPTQ，一种专为大型语言模型设计的高效准确的训练后量化方法。它展示了 PTQ 如何有效地应用于 LLM 以实现显著压缩并保持低精度损失，与课程重点高度相关。
Deep Learning with Low-Precision Quantization: A Review, Zechun Cai, Dong Huang, Zizheng Pan, Yunhe Wang, Kai Han, Wenshi Zhang, Errui Ding, Yiping Deng, Yubei Chen, and Xiangyu Zhang, 2020 Journal of Parallel and Distributed Computing, Vol. 144 (Elsevier) DOI: 10.1016/j.jpdc.2020.05.006 - 这篇全面的综述文章回顾了深度学习中各种低精度量化技术，涵盖了训练后量化 (PTQ) 和量化感知训练 (QAT)。它提供了对其方法、优势和局限性的广阔视角。

© 2025 ApX Machine Learning用心打造