趋近智
首页
博客
课程
大模型
中
所有课程
LLM压缩与加速技术
章节 1: 大语言模型效率挑战:背景与基本原理
LLM的规模法则与计算成本
LLM推理中的内存带宽和计算瓶颈
实现效率的架构考量
评估LLM压缩与延迟的衡量标准
LLM 部署的硬件
压缩与加速的理论边界
章节 2: 进阶量化技术
量化基本原理回顾
训练后量化 (PTQ)
量化感知训练 (QAT)
极致量化
混合精度量化策略
量化操作的硬件加速
评估量化大型语言模型的保真度与性能
实践操作:PTQ 和 QAT 的实现
章节 3: 高级剪枝方法
非结构化剪枝与结构化剪枝
强度剪枝
移动剪枝与动态稀疏性
结构化剪枝技术
剪枝与量化的结合
编译器和运行时对稀疏操作的支持
评估剪枝对大型语言模型能力的影响
实践:应用结构化剪枝
章节 4: 大模型知识蒸馏
知识蒸馏的基本原理
蒸馏目标
自蒸馏与数据增强方法
任务专用蒸馏与任务通用蒸馏
将大型模型蒸馏成小型模型
生成模型蒸馏的难题
评估蒸馏模型性能
动手实践:生成式大型语言模型知识蒸馏
章节 5: 参数高效微调 (PEFT) 及适配
PEFT 的缘由
适配器模块
前缀微调、提示微调与P-Tuning
低秩适应(LoRA)
量化LoRA (QLoRA)
组合PEFT方法
PEFT技术性能分析
实践:使用LoRA和QLoRA进行微调
章节 6: 硬件加速与系统优化
将LLM操作映射到硬件架构
大型模型的内存管理技术
LLM层的优化算子
LLM的编译器优化
分布式推理策略
高级推理优化算法
大型语言模型在不同硬件上的性能基准测试
实践操作:使用运行时优化推理
章节 7: 综合优化策略与进阶内容
结合多种优化技术
神经网络架构搜索 (NAS) 面向高效大语言模型
条件计算与专家混合(MoE)
优化模型的持续学习
衡量对公平性和鲁棒性的影响
LLM 效率的研究前沿
实践:设计端到端优化流程
大型模型的内存管理技术
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
LLM内存管理