趋近智
先决条件: Python、机器学习、大型语言模型入门知识。
级别:
高阶量化技术
实施并比较各类大型语言模型量化方法,包括低比特(低于4比特)、混合精度、以及GPTQ和AWQ等训练后量化算法。
量化校准
应用高阶校准技术,以最大限度减少大型语言模型量化过程中的精度损失。
性能分析
评估量化大型语言模型的性能(延迟、吞吐量、内存占用)与精度之间的权衡。
硬件专项优化
优化量化大型语言模型的推理,使其适用于不同硬件目标,包括CPU和GPU。
部署框架
运用专业框架与库(例如TensorRT-LLM、vLLM、TGI、ONNX Runtime),高效部署量化大型语言模型。
部署策略
实施服务量化大型语言模型的部署策略,并考量扩展性与资源管理。