强度剪枝

强度剪枝依据一个简单前提：模型参数 (parameter)（通常是权重 (weight)）的绝对值越小，对模型输出的贡献越不明显，因此可以在对性能影响很小的情况下将其移除。此方法旨在模型权重矩阵中直接生成稀疏性。

主要观点：小权重 (weight)，小影响？

强度剪枝背后的设想源于神经网络 (neural network)计算输出的方式。在许多运算中，特别是矩阵乘法 ( $Y = WX + b$ )，输出 $Y$ 是输入 $X$ 的加权和，其中权重是 $W$ 的元素。如果特定权重 $w_{ij}$ 的强度接近零，则无论输入 $x_j$ 是多少，它对相应输出元素 $y_i$ （特别是项 $w_{ij} x_j$ ）的贡献也将很小。假定移除这样的权重（将其设为零）对输出的改变不如移除大强度权重那样剧烈。

尽管这是一种启发式方法，但在实践中，对于LLM等过参数 (parameter)化模型而言，它通常表现出人意料地好，因为这类模型中的许多权重确实可能是冗余或贡献微乎其微的。

一次性剪枝：一种直接形式

最基本的实现是一次性剪枝。它包含以下步骤：

训练： 将密集LLM训练到收敛，或从预训练 (pre-training)模型开始。
排序： 计算目标层或整个模型中每个权重 (weight) $w$ 的绝对强度 $|w|$ 。
设置阈值： 确定剪枝阈值。这可以是一个全局阈值，或者更常见的是由目标稀疏度 $S$ 定义。对于目标稀疏度 $S$ ，找到权重强度的 $(S \times 100)$ 百分位数，所有强度低于此值的权重都设为零。
应用掩码： 创建一个二进制掩码 $M$ ，其中如果 $|w_{ij}|$ 低于阈值则 $M_{ij} = 0$ ，否则 $M_{ij} = 1$ 。然后，剪枝后的权重 $W_{pruned}$ 为 $W_{pruned} = W \odot M$ ，其中 $\odot$ 表示逐元素乘法。

这种方法速度快，但可能过于激进。同时移除大部分权重可能会明显降低模型准确性，有时是不可恢复的。

迭代剪枝：一种更循序渐进的方式

为减轻一次性剪枝带来的准确性下降，迭代强度剪枝 (IMP) 普遍使用。IMP 不会一次性移除所有目标权重 (weight)，而是遵循一个循环：

剪枝： 移除一小部分当前活跃的、强度最低的权重（例如，剩余权重的5-10%）。
微调 (fine-tuning)： 在原始训练数据或相关子集上对剪枝后的模型进行有限轮次的再训练（微调）。这使得剩余权重能够适应并补偿被移除的权重，从而恢复损失的准确性。
重复： 继续这种剪枝-微调循环，直到达到期望的整体稀疏度。

迭代强度剪枝 (IMP) 流程：剪除小部分权重，随后进行微调循环。

这种循序渐进的移除和交错进行的微调，与一次性剪枝相比，通常能在更高稀疏度下带来更好的准确性。

IMP中的微调 (fine-tuning)策略

微调步骤对于迭代剪枝的成功非常重要。重要的考量包括：

学习率： 通常使用比初始预训练 (pre-training)学习率更小的学习率。这有助于缓慢调整剩余权重 (weight)，而不引起不稳定。学习率方案（例如，逐渐衰减）也可能有益。
持续时间： 微调通常需要的训练轮数少于原始训练。目标是恢复准确性，而非从头开始训练。每个周期的最佳轮数通常通过经验确定。
掩码处理： 在微调过程中，被剪枝权重（设为零的权重）的梯度必须保持为零。只有未剪枝的权重应得到更新。这通常通过在优化器步骤之前对梯度应用剪枝掩码来实现。

确定稀疏度和范围

目标稀疏度是一个重要的决定。更高的稀疏度会带来更小的模型和可能更快的推理 (inference)速度（如果得到硬件/软件支持），但通常以准确性为代价。这种关系通常是非线性的：初期的剪枝可能影响很小，但达到某个点后准确性会急剧下降。

迭代强度剪枝过程中，随着稀疏度的增加，准确性会下降。性能初期通常保持稳定，但在更高稀疏度下可能会明显下降。

另一个选择是剪枝的范围：

全局剪枝： 对整个模型中的所有权重 (weight)进行排序，并应用单一阈值。
层级剪枝： 对每个层独立地对权重进行排序和剪枝，可能对每层应用不同的稀疏度。这有时可以产生更好的结果，因为它允许使稀疏度适应不同层的敏感度。

优点和缺点

优点：

简单性： 主要想法易于理解，且相对容易实现，特别是一次性版本。
有效性： 可以实现大幅模型尺寸减小，通常伴随可接受的准确性损失，特别是在使用迭代方法时。
通用性： 适用于各种模型架构和包含权重 (weight)参数 (parameter)的层。

缺点：

非结构化稀疏性： 标准强度剪枝通常导致不规则的、细粒度的稀疏模式（单个权重被置零）。在没有针对稀疏计算设计的专用库或硬件支持的情况下，这通常无法在通用硬件（如GPU或CPU）上直接转化为明显的延迟改进。我们将在后面讨论结构化剪枝，其针对此情况。
计算成本： 迭代剪枝需要重复的微调 (fine-tuning)循环，这可能计算开销大且耗时，特别是对于非常大的模型。
强度 ≠ 重要性： 强度低总是意味着重要性低的假定是一种经验法则。一些低强度权重在微调过程中可能会变得重要，或者某些结构可能依赖于小权重组合。

强度剪枝是LLM优化工具集中的一项基本方法。尽管它在减小模型尺寸方面有效，但其对推理 (inference)速度的影响通常是间接的，除非搭配特定的硬件或软件支持。在考虑更复杂的结构化剪枝方法或训练期间动态调整稀疏性的方法之前，理解其工作方式和迭代优化流程非常重要。

这部分内容有帮助吗？

参考文献

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, Song Han, Huizi Mao, William J. Dally, 2016 International Conference on Learning Representations 2016 (OpenReview) DOI: 10.48550/arXiv.1510.00149 - 这是一项关于神经网络压缩的开创性工作，它将迭代的基于幅度的剪枝作为一项基本技术，与量化和霍夫曼编码一起，以实现高稀疏性和减小模型大小。
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Subnetworks, Jonathan Frankle, Michael Carbin, 2019 ICLR 2019 DOI: 10.48550/arXiv.1803.03635 - 本文提出了“彩票假设”，为迭代基于幅度的剪枝的有效性提供了理论依据，证明了密集、随机初始化的网络包含稀疏子网络，这些子网络可以单独训练以达到可比的准确性。
Rethinking the Value of Network Pruning, Zhuang Liu, Mingxing Tan, Edward Albert, Quoc V. Le, 2018 Proceedings of Machine Learning Research, Volume 97 (ICLR 2019), Vol. 97 (PMLR (Proceedings of Machine Learning Research)) DOI: 10.48550/arXiv.1810.05270 - 这项研究批判性地评估了现有的剪枝技术，包括基于幅度的剪枝方法，并讨论了稀疏性与实际推理加速之间的差异，强调了非结构化稀疏性在通用硬件上的挑战。
Sparse Training: A Survey, Thomas Gale, Erich Elsen, Sara Hooker, 2020 arXiv preprint arXiv:1912.06733 DOI: 10.48550/arXiv.1912.06733 - 一项全面的调查，回顾了稀疏神经网络训练的各种方法，包括作为基础方法的基于幅度的剪枝，提供了该领域的概况及其挑战。