所有课程

LLM压缩与加速技术

章节 1: 大语言模型效率挑战：背景与基本原理

LLM的规模法则与计算成本

LLM推理中的内存带宽和计算瓶颈

实现效率的架构考量

评估LLM压缩与延迟的衡量标准

LLM 部署的硬件

压缩与加速的理论边界

章节 2: 进阶量化技术

量化基本原理回顾

训练后量化 (PTQ)

量化感知训练 (QAT)

混合精度量化策略

量化操作的硬件加速

评估量化大型语言模型的保真度与性能

实践操作：PTQ 和 QAT 的实现

章节 3: 高级剪枝方法

非结构化剪枝与结构化剪枝

移动剪枝与动态稀疏性

结构化剪枝技术

剪枝与量化的结合

编译器和运行时对稀疏操作的支持

评估剪枝对大型语言模型能力的影响

实践：应用结构化剪枝

章节 4: 大模型知识蒸馏

知识蒸馏的基本原理

自蒸馏与数据增强方法

任务专用蒸馏与任务通用蒸馏

将大型模型蒸馏成小型模型

生成模型蒸馏的难题

评估蒸馏模型性能

动手实践：生成式大型语言模型知识蒸馏

章节 5: 参数高效微调 (PEFT) 及适配

适配器模块

前缀微调、提示微调与P-Tuning

低秩适应（LoRA）

量化LoRA (QLoRA)

组合PEFT方法

PEFT技术性能分析

实践：使用LoRA和QLoRA进行微调

章节 6: 硬件加速与系统优化

将LLM操作映射到硬件架构

大型模型的内存管理技术

LLM层的优化算子

LLM的编译器优化

分布式推理策略

高级推理优化算法

大型语言模型在不同硬件上的性能基准测试

实践操作：使用运行时优化推理

章节 7: 综合优化策略与进阶内容

结合多种优化技术

神经网络架构搜索 (NAS) 面向高效大语言模型

条件计算与专家混合（MoE）

优化模型的持续学习

衡量对公平性和鲁棒性的影响

LLM 效率的研究前沿

实践：设计端到端优化流程

非结构化剪枝与结构化剪枝

这部分内容有帮助吗？

参考文献

Learning both Weights and Connections for Efficient Neural Networks, Song Han, Jeff Pool, John Tran, William J. Dally, 2015 Advances in Neural Information Processing Systems (NIPS), Vol. 28 DOI: 10.48550/arXiv.1506.02626 - 提出了基于迭代幅值的权重剪枝方法，是实现高非结构化稀疏性和模型压缩的基础方法。
Pruning Filters for Efficient ConvNets, Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, Hans Peter Graf, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1608.08710 - 一项开创性工作，提出了修剪卷积神经网络中的整个滤波器/通道，展示了结构化稀疏性带来的实际加速。
A Guide to N:M Sparsity with NVIDIA Ampere GPUs, NVIDIA Developer, 2021 (NVIDIA) - 解释了 NVIDIA Ampere GPU 的 N:M 半结构化稀疏性功能，说明了特定硬件支持如何加速某些结构化剪枝模式。
What is the State of Neural Network Pruning?, Jonah Blalock, Jose Javier Gonzalez Ortiz, Jonathan Frankle, John D. Moeller, Tyler McCormick, Vivek S. Borkar, 2022 Nature Machine Intelligence, Vol. 5 (Springer Nature) DOI: 10.1038/s42256-022-00462-0 - 一篇全面概述神经网络剪枝技术的综述，涵盖非结构化和结构化方法、其理论基础和实际应用。

© 2025 ApX Machine Learning用心打造