应用剪枝技术,无论是移除单个权重 (weight)还是整个结构组件,都会必然改变大型语言模型(LLM)内部学习到的表征和计算路径。尽管目标是以最小的性能损失达到此效果,但仍需进行全面的分析,以了解其对模型能力的整体影响。仅仅测量困惑度或基准测试集上的总分,往往难以反映其全貌,特别是对于生成模型或部署在特定下游应用的模型而言。
针对剪枝后的LLM,一套严格的评估框架应评估性能的多个维度,远不止标准准确性指标。
评估核心语言建模能力
剪枝最直接的影响通常体现在内在语言建模指标上。
- 困惑度: 这仍然是一个基础衡量标准。随着稀疏度增加,跟踪在保留数据集上的困惑度。预期会出现非线性关系:初始剪枝可能影响很小,但在达到一定稀疏度阈值后,性能下降通常会加速。这条曲线的形态很大程度上取决于剪枝方法、剪枝后的微调 (fine-tuning)策略以及模型架构。
- 标准基准测试(GLUE, SuperGLUE): 评估在 GLUE 或 SuperGLUE 等多样化任务集上的表现。分析 每个任务 的性能下降。有些任务可能比其他任务对剪枝更敏感,这可能表明哪些能力(例如,推理 (inference)、情感分析)更依赖于被剪枝的参数 (parameter)。例如,需要细粒度语义理解的任务可能会比简单的分类任务受到更大的影响。
不同剪枝技术下,模型稀疏度增加与导致的困惑度增加之间的关系。请注意在较高稀疏度下,性能下降可能更为显著。
评估生成性能
对于生成式LLM,标准基准测试是不够的。剪枝可能影响生成文本的质量、连贯性和多样性。
- 流畅性和连贯性: 评估生成文本的语法正确性、逻辑流程和一致性。BLEU 或 ROUGE 等自动化指标(通常用于翻译/摘要)可以提供一些信号,但通常与人类对整体质量的判断关联性较差。经常需要人工进行定性分析。
- 重复性和多样性: 剪枝后的模型可能表现出更高的重复性或降低的词汇多样性。分析 n-gram 重复率以及 Distinct-1/Distinct-2 等指标(衡量唯一一元/二元词的比例)。
- 事实性和幻觉 (hallucination): 调查剪枝是否增加了模型生成事实不准确陈述(幻觉)的倾向。这需要专门的评估集或仔细的人工审查。
- 指令遵循和创造力: 对于指令微调 (fine-tuning)模型,评估它们在剪枝后准确遵循复杂指令的能力。评估在故事生成或头脑风暴等任务中,如创造力等主观品质。
对下游任务和知识保留的影响
剪枝可能不成比例地影响预训练 (pre-training)期间编码的知识或微调 (fine-tuning)期间习得的特定技能。
- 特定任务性能: 测量模型预期用于的特定下游任务上的性能下降(例如,使用 ROUGE 的摘要质量,使用 BLEU/COMET 的翻译质量,使用 pass@k 指标的代码生成准确性)。
- 知识探查: 使用有针对性的探针或问答数据集(例如,TriviaQA, Natural Questions)来评估特定事实知识是否丢失。分析剪枝是否对某些知识领域的影响大于其他领域。
- 灾难性遗忘: 评估剪枝过程,特别是如果与大量微调结合,是否会导致预训练期间学习到的通用能力遗忘。这涉及到在广泛的任务上进行测试,而不仅仅是微调目标。带有中间微调的迭代剪枝策略通常旨在缓解这种情况。
分析架构敏感性
Transformer 架构中的不同组件对剪枝表现出不同的敏感度。
- 注意力头与前馈网络层: 结构化剪枝通常针对特定组件。分析剪枝注意力头与移除前馈网络(FFN)层参数 (parameter)的影响。剪枝某些注意力头可能会影响长距离依赖建模,而 FFN 剪枝可能会影响事实回忆或特定的学习变换。研究表明,与注意力机制 (attention mechanism)相比,FFN 层通常包含更多冗余参数。
- 层敏感性: 不同层中的参数可能具有不同的重要性。早期层可能捕获更通用的特征,而后期层处理更抽象的表征。剪枝策略有时会根据敏感性分析对不同层应用不同的稀疏度。
剪枝类型与影响的关系
非结构化剪枝和结构化剪枝之间的选择显著影响观察到的效果。
- 非结构化剪枝: 在性能显著下降之前通常能达到更高的稀疏度,但由此产生的不规则稀疏模式在没有专用内核或编译器支持的情况下,很难在标准硬件上加速。影响可能分散在模型各项能力中。
- 结构化剪枝: 直接移除计算上重要的块(通道、注意力头、层)。这在硬件上提供了更可预测的延迟改进,但如果移除关键结构,可能会导致更急剧的性能下降。影响通常更局限于被剪枝块执行的功能(例如,移除特定的注意力头可能会损害特定的关系推理 (inference))。
公平性、鲁棒性与偏差考量
尽管第 7 章提供了更详细的阐述,但初步评估剪枝是否引入或加剧了与公平性或鲁棒性相关的问题很重要。剪枝后的模型是否对某些人群表现出更大的偏见?它是否更容易受到对抗性攻击或分布外输入的影像?优化技术有时可能会无意中移除对少数群体或鲁棒性检查很重要的表征。建议使用公平性基准测试(例如,BOLD, ToxiGen)或鲁棒性测试进行初步检查。
总而言之,评估剪枝的影响需要多方面的方法。结合自动化指标、特定下游任务的性能、生成质量的定性评估以及架构组件敏感性分析。这种全面的评估确保剪枝带来的效率提升不会以牺牲模型基本能力为不可接受的代价,使优化后的模型符合其预期的部署要求。