量化简介

这部分内容有帮助吗？

参考文献

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale, Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer, 2022 NeurIPS 2022 DOI: 10.48550/arXiv.2208.07339 - 介绍了一种广泛采用的针对大型Transformer模型的8位量化方法，使其能够在消费级GPU上运行。
GPTQ: Accurate Post-Training Quantization for Generative Pretrained Transformers, Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh, 2023 International Conference on Learning Representations DOI: 10.48550/arXiv.2210.17323 - 提出了一种针对大型语言模型进行4位精度训练后量化的技术，可将精度损失降至最低。
QLoRA: Efficient Finetuning of Quantized LLMs on Consumer GPUs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 Advances in Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2305.14314 - 介绍了一种利用4位量化实现大型语言模型高效微调的方法，展示了量化的实际应用价值。
bitsandbytes Library Documentation, Tim Dettmers and contributors, 2024 (bitsandbytes-foundation) - PyTorch的Python库官方文档，提供8位和4位量化以及优化器，广泛用于内存高效的LLM部署。