趋近智
大型语言模型(LLMs)具备强大的能力,但其庞大的体积和计算要求常妨碍在资源受限的环境中部署。本章介绍知识蒸馏(KD)这一技术来解决此问题。其主要思想是将大型、复杂的“教师”模型所学到的知识迁移到更小、更高效的“学生”模型上,旨在保持性能的同时减小模型体积并降低推理成本。
您将掌握知识蒸馏的基本原理,从使用软目标(教师模型的输出概率)的最初思路,到涉及中间特征匹配和注意力迁移的更进一步的方法。我们将介绍:
本章结束时,您将明白如何设计、实现和评估专门为压缩大型语言模型而定制的知识蒸馏过程。
4.1 知识蒸馏的基本原理
4.2 蒸馏目标
4.3 自蒸馏与数据增强方法
4.4 任务专用蒸馏与任务通用蒸馏
4.5 将大型模型蒸馏成小型模型
4.6 生成模型蒸馏的难题
4.7 评估蒸馏模型性能
4.8 动手实践:生成式大型语言模型知识蒸馏
© 2026 ApX Machine Learning用心打造