趋近智
您已经研究了几种主要方法,用于提升大型语言模型(LLM)的效率,包括量化 (quantization)、剪枝、知识蒸馏 (knowledge distillation)、参数 (parameter)高效微调 (fine-tuning)(PEFT)以及硬件优化。单独来看,这些方法都能在模型大小或推理 (inference)速度上带来明显改善。然而,要达到最高效率,通常需要采取更全面的方法。
本章将重心放在如何将这些各项优化策略结合成高效的工作流程。您将学习如何策略性地组合剪枝与量化、或蒸馏与PEFT等方法,并分析它们可能带来的好处以及彼此的配合方式。我们还将讨论更高级的内容,以提升LLM效率的上限,例如用于设计本身就高效模型的神经架构搜索(NAS)、用于条件计算的专家混合(MoE)的使用,以及持续更新优化模型所面临的挑战。最后,我们将思考这些技术对模型公平性和鲁棒性的重要影响,并简要提及当前的研究方向。
7.1 结合多种优化技术
7.2 神经网络架构搜索 (NAS) 面向高效大语言模型
7.3 条件计算与专家混合(MoE)
7.4 优化模型的持续学习
7.5 衡量对公平性和鲁棒性的影响
7.6 LLM 效率的研究前沿
7.7 实践:设计端到端优化流程