自蒸馏与数据增强方法

传统知识蒸馏 (knowledge distillation)依赖一个独立、预训练 (pre-training)的大型教师模型，而自蒸馏提供了一种有趣的替代方案，模型从自身学习。这种方式避免了对一个独立且通常庞大的教师模型的需求，在特定情况下具有显著益处。

在自蒸馏中，“教师”模型本质上是从学生模型自身训练过程中得来的。这可以通过几种方式实现：

迭代蒸馏： 模型训练一定数量的周期。这种训练好的状态随后作为“教师”，用于对相同模型架构的后续训练阶段，通常从头开始或从更早的检查点初始化。新的学生模型学习模仿其先前版本的输出（软标签）或内部表示。这个过程可以重复，可能带来性能和可靠性的逐步提升。
基于集成学习的自蒸馏： 在训练期间，学生模型的多个检查点或轻微扰动版本可以构成一个隐式集成。随后，学生模型被训练以匹配该集成的平均预测（软标签）。这有助于模型收敛到更平坦的局部最小值，这通常与更好的泛化能力相关联。
正则化 (regularization)视角： 自蒸馏可以被看作是一种正则化形式。通过鼓励学生模型与其自身的过去或平均预测保持一致，它会惩罚过度自信或不稳定的输出，从而促使决策边界更加平滑。蒸馏损失项，通常是当前学生模型预测与“教师”（先前版本）预测之间的KL散度，与主要任务损失（例如，交叉熵）一同起作用。

自蒸馏是一种知识蒸馏 (knowledge distillation)方法，其机制是使用诸如将输出概率分布 ( $p_{student}$ ) 与目标分布 ( $p_{teacher}$ ，其来源于学生模型自身) 进行匹配的目标：

L_{自蒸馏} = D_{KL}(p_{学生\_当前}||p_{学生\_先前})

或匹配中间表示。

标准知识蒸馏（使用独立教师）与自蒸馏（模型从自身先前版本学习）的对比。

尽管看起来有悖常理（“模型如何能通过向自身学习而得到提升？”），自蒸馏通常有效，因为“教师”版本，由于训练进展更远或作为集成平均，与仅使用原始真实标签相比，提供了一个更稳定、平滑或泛化的目标信号。它有助于规范训练过程，特别是对于复杂的大型语言模型。

数据增强是一种提升模型泛化能力的有效方法，在知识蒸馏 (knowledge distillation)的背景下，其作用得到加强。通过使教师和学生（或者在自蒸馏中只使学生）接触到更多样化的输入变化，我们可以提升所传递知识的质量和可靠性。

标准的自然语言处理（NLP）增强方法在这里适用：

然而，在知识蒸馏设置中，我们可以采用更完善、感知蒸馏的增强策略：

教师生成伪数据： 使用教师模型自身生成新的无标签数据样本。这可以通过提示教师模型或从其输出分布中采样来实现。接着，将教师模型对这些生成数据的预测（软标签或中间状态）用作对学生的监督。这方法非常有效，因为增强数据直接与教师模型提供的丰富目标信号配对，并根据教师模型的具体理解进行了调整。
增强一致性： 对输入样本应用增强，并鼓励学生模型在原始和增强版本上产生与教师模型输出一致的结果。这促使学生模型学习教师模型捕获到的不变性。
混合策略： MixUp（插值输入和标签）或CutMix（将一个输入的补丁粘贴到另一个上）等方法可以进行调整。在知识蒸馏中，插值可能涉及混合教师模型提供的软目标，从而生成更复杂的监督信号。

为何增强对知识蒸馏尤其有益？

自蒸馏和数据增强可以共同使用。一种常见的模式包括：

增强数据提供了更丰富的输入信号，而自蒸馏机制提供了正则化 (regularization)以及比单独的真实标签更精炼的目标信号。这种结合可以生成不仅紧凑而且强大有效的学生模型，它们在不依赖外部教师的情况下内化知识。

然而，需要仔细实施。过度激进的增强可能引入损害训练的噪声，而配置不当的自蒸馏可能导致不稳定或收敛缓慢。像所有优化方法一样，在相关下游任务上进行经验验证和调整对于取得恰当平衡非常重要。

参考文献

Distilling the Knowledge in a Neural Network, Geoffrey Hinton, Oriol Vinyals, Jeff Dean, 2015 NIPS 2014 Deep Learning Workshop DOI: 10.48550/arXiv.1503.02531 - 介绍了知识蒸馏的概念，利用教师模型的软标签训练学生模型。
Born Again Neural Networks, Tommaso Furlanello, Zachary Lipton, Michael Tschannen, Laurent Itti, Anima Anandkumar, 2018 Proceedings of the 35th International Conference on Machine Learning, Vol. 80 (PMLR) - 提出自蒸馏方法，模型通过使用自身之前状态的预测作为教师进行训练，展示了性能提升。
Unsupervised Data Augmentation for Consistency Training, Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le, 2020 Advances in Neural Information Processing Systems (NeurIPS), Vol. 33 (Curran Associates Inc.) DOI: 10.48550/arXiv.1904.12848 - 探讨了数据增强与一致性训练的结合，该策略对于蒸馏感知增强非常相关，模型从增强输入中学习不变性。