所有课程

LLM压缩与加速技术

章节 1: 大语言模型效率挑战：背景与基本原理

LLM的规模法则与计算成本

LLM推理中的内存带宽和计算瓶颈

实现效率的架构考量

评估LLM压缩与延迟的衡量标准

LLM 部署的硬件

压缩与加速的理论边界

章节 2: 进阶量化技术

量化基本原理回顾

训练后量化 (PTQ)

量化感知训练 (QAT)

混合精度量化策略

量化操作的硬件加速

评估量化大型语言模型的保真度与性能

实践操作：PTQ 和 QAT 的实现

章节 3: 高级剪枝方法

非结构化剪枝与结构化剪枝

移动剪枝与动态稀疏性

结构化剪枝技术

剪枝与量化的结合

编译器和运行时对稀疏操作的支持

评估剪枝对大型语言模型能力的影响

实践：应用结构化剪枝

章节 4: 大模型知识蒸馏

知识蒸馏的基本原理

自蒸馏与数据增强方法

任务专用蒸馏与任务通用蒸馏

将大型模型蒸馏成小型模型

生成模型蒸馏的难题

评估蒸馏模型性能

动手实践：生成式大型语言模型知识蒸馏

章节 5: 参数高效微调 (PEFT) 及适配

适配器模块

前缀微调、提示微调与P-Tuning

低秩适应（LoRA）

量化LoRA (QLoRA)

组合PEFT方法

PEFT技术性能分析

实践：使用LoRA和QLoRA进行微调

章节 6: 硬件加速与系统优化

将LLM操作映射到硬件架构

大型模型的内存管理技术

LLM层的优化算子

LLM的编译器优化

分布式推理策略

高级推理优化算法

大型语言模型在不同硬件上的性能基准测试

实践操作：使用运行时优化推理

章节 7: 综合优化策略与进阶内容

结合多种优化技术

神经网络架构搜索 (NAS) 面向高效大语言模型

条件计算与专家混合（MoE）

优化模型的持续学习

衡量对公平性和鲁棒性的影响

LLM 效率的研究前沿

实践：设计端到端优化流程

评估蒸馏模型性能

这部分内容有帮助吗？

参考文献

Distilling the Knowledge in a Neural Network, Geoffrey Hinton, Oriol Vinyals, Jeff Dean, 2015 arXiv preprint arXiv:1503.02531 DOI: 10.48550/arXiv.1503.02531 - 介绍知识蒸馏概念的开创性论文，为评估学生模型对教师模型的忠实度提供了基础。
GLUE: A Multi-Task Benchmark for Natural Language Understanding, Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman, 2018 ICLR 2019 (published as arXiv preprint) DOI: 10.48550/arXiv.1804.07461 - 介绍了GLUE基准测试，这是评估NLU模型的标准套件，对于评估蒸馏模型的任务性能和忠实度至关重要。
BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi, 2019 ICLR 2020 (published as arXiv preprint) DOI: 10.48550/arXiv.1904.09675 - 提出了BERTScore，一种利用上下文嵌入与人类判断更相关的文本生成自动评估指标。
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu, 2023 arXiv preprint arXiv:2303.16634 DOI: 10.48550/arXiv.2303.16634 - 介绍了G-Eval，一种利用大型语言模型作为评估器来评估自然语言生成的方法，提高了与人类判断的一致性。

© 2025 ApX Machine Learning用心打造