在研究了降低模型参数数值精度的方法之后,我们现在将注意力转向剪枝。剪枝技术旨在通过移除被认为不太重要的组件,来减小大型语言模型(LLMs)的体积,并可能加速其推理。其基本思路是引入稀疏性,消除连接或整个结构元素,而不严重影响模型性能。本章介绍多种方法来有效地实现这种稀疏性。您将学会:区分非结构化(权重级别)剪枝和结构化(组级别,如通道或注意力头)剪枝,理解它们各自对硬件效率的影响。实现并分析基于幅度的剪枝方法,并考察更具动态性的技术,例如运动剪枝。应用专门为Transformer架构设计的结构化剪枝策略。制定将剪枝与量化结合的方法,以叠加优化效果。理解编译器和硬件如何利用由剪枝产生的稀疏模式。评估剪枝对模型精度、生成质量和整体性能的影响。在本章结束时,您将对如何选择、应用和评估优化大型语言模型的高级剪枝方法有实际的认识。