您已经研究了几种主要方法,用于提升大型语言模型(LLM)的效率,包括量化、剪枝、知识蒸馏、参数高效微调(PEFT)以及硬件优化。单独来看,这些方法都能在模型大小或推理速度上带来明显改善。然而,要达到最高效率,通常需要采取更全面的方法。本章将重心放在如何将这些各项优化策略结合成高效的工作流程。您将学习如何策略性地组合剪枝与量化、或蒸馏与PEFT等方法,并分析它们可能带来的好处以及彼此的配合方式。我们还将讨论更高级的内容,以提升LLM效率的上限,例如用于设计本身就高效模型的神经架构搜索(NAS)、用于条件计算的专家混合(MoE)的使用,以及持续更新优化模型所面临的挑战。最后,我们将思考这些技术对模型公平性和鲁棒性的重要影响,并简要提及当前的研究方向。