趋近智
当模型通过训练后量化 (quantization)(Post-Training Quantization)或量化感知训练(Quantization-Aware Training)等方法进行量化后,一些实际问题随之而来:这些低精度模型如何高效地保存、加载和运行?标准模型序列化方法可能无法最佳处理或等格式所需的特有结构和元数据(如缩放因子或零点)。
本章将针对这些实际考量进行讲解,介绍量化LLM生态系统中常用的格式和软件工具。我们将介绍:
bitsandbytes在推理 (inference)时执行高效低比特操作。您将熟悉将模型转换为这些格式,并使用相关工具高效地加载和运行它们。
5.1 常见量化模型格式概述
5.2 GGUF:结构与使用
5.3 GPTQ格式:库支持与应用
5.4 AWQ 格式说明
5.5 使用 Hugging Face Transformers 和 Optimum
5.6 使用bitsandbytes进行量化
5.7 模型转换与加载工具
5.8 实践:转换和加载量化格式