高效的大语言模型：蒸馏与量化

这部分内容有帮助吗？

参考文献

Distilling the Knowledge in a Neural Network, Geoffrey Hinton, Oriol Vinyals, Jeff Dean, 2015 arXiv preprint arXiv:1503.02531 DOI: 10.48550/arXiv.1503.02531 - 这篇基础论文介绍了知识蒸馏，包括软化概率和softmax温度的概念。
PyTorch Quantization Documentation, PyTorch Contributors, 2024 (PyTorch Foundation) - PyTorch量化模块的官方文档，提供了PTQ和QAT的实践细节和实现指导。