所有课程

大语言模型实用量化技术

章节 1: 模型量化原理

模型压缩简介

为何对大型语言模型进行量化？

数值表示：浮点数与定点数

量化中的整数数据类型

量化方案：对称量化与非对称量化

量化粒度选择

量化误差的度量

量化方法的概述

第 1 章测验

章节 2: 训练后量化 (PTQ)

训练后量化原理

校准：选择有代表性的数据

静态量化与动态量化

常见的 PTQ 算法

处理 PTQ 中的异常值

将PTQ应用于LLM层

基础PTQ的局限性

动手实践：应用静态PTQ

第 2 章测验

章节 3: 进阶PTQ技术

理解 GPTQ 算法机制

AWQ：激活感知权重量化

SmoothQuant：减轻激活离群值

高级PTQ方法比较

高级PTQ的实施考量

动手实践：使用 GPTQ 进行量化

第 3 章测验

章节 4: 量化感知训练 (QAT)

量化感知训练的必要性

训练期间模拟量化影响

直通估计器 (STE)

使用深度学习框架实现量化感知训练

使用量化节点微调模型

QAT 与 PTQ 的优缺点对比

QAT实施中的实际考量

动手实践：搭建简单量化感知训练运行环境

第 4 章测验

章节 5: 量化格式与工具

常见量化模型格式概述

GGUF：结构与使用

GPTQ格式：库支持与应用

AWQ 格式说明

使用 Hugging Face Transformers 和 Optimum

使用bitsandbytes进行量化

模型转换与加载工具

实践：转换和加载量化格式

第 5 章测验

章节 6: 量化大型语言模型的评估与部署

量化模型评估指标

衡量推理速度和内存占用

量化推理的硬件考量

量化大型语言模型的部署策略

常见量化问题排查

准确性与性能权衡分析

实践：量化大型语言模型的基准测试

第 6 章测验

量化大型语言模型的部署策略

这部分内容有帮助吗？

参考文献

Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications, Chip Huyen, 2022 (O'Reilly Media) - 关于设计、构建和操作机器学习系统的综合指南，包括模型部署和MLOps实践的重要方面。
llama.cpp GitHub Repository, Georgi Gerganov and llama.cpp contributors, 2024 - llama.cpp的官方存储库，一个用于LLM的C/C++推理引擎，针对CPU优化，支持GGUF和多种量化格式，可进行高效的设备上执行。
NVIDIA TensorRT Developer Guide, NVIDIA Corporation, 2024 (NVIDIA) - NVIDIA TensorRT的官方文档，一个用于高性能深度学习推理的软件开发工具包，支持NVIDIA GPU上的量化模型。
TensorFlow Lite Developer Guide, Google, 2024 (Google) - TensorFlow Lite的官方开发者指南，提供在移动、边缘和嵌入式设备上部署机器学习模型（包括量化LLM）的工具和方法。
Deploy models for inference with Amazon SageMaker, Amazon Web Services, 2024 (Amazon Web Services) - AWS关于使用Amazon SageMaker部署模型进行推理的官方文档，SageMaker是一个托管服务，用于在云中托管和管理ML模型。

© 2025 ApX Machine Learning用心打造