趋近智
在上一章学习了高级量化 (quantization)技术的理论后,本节将侧重于使用常用软件库进行这些方法的实际操作。目标是让您从理解低比特量化(例如)等原理以及GPTQ和AWQ等算法,转向在大型语言模型上实际执行这些操作。
您将使用专为LLM量化设计的广泛使用的工具包:
bitsandbytes如何支持高效的低比特操作。Transformers和Accelerate直接在Hugging Face生态系统内集成量化。AutoGPTQ和AutoAWQ库来应用GPTQ和AWQ。在本章中,我们将介绍使用这些工具量化模型的必要步骤,考察如何比较不同库获得的结果和性能特点,并处理模型和工具包之间可能出现的兼容性挑战。学习结束时,您将拥有使用这些库准备大型语言模型以进行高效部署的实践经验。
2.1 LLM量化库概览
2.2 使用 bitsandbytes 进行低位操作
2.3 使用 Hugging Face Transformers 和 Accelerate 实现量化
2.4 使用 AutoGPTQ 应用 GPTQ
2.5 使用 AutoAWQ 应用 AWQ
2.6 比较工具包的输出和性能
2.7 处理模型兼容性问题
2.8 实践:使用多种工具包量化模型